Comment modéliser la somme des variables aléatoires de Bernoulli pour les données dépendantes?

9

J'ai presque les mêmes questions comme celle-ci: comment puis-je modéliser efficacement la somme des variables aléatoires de Bernoulli?

Mais le cadre est assez différent:

  1. P ( X i = 1 ) = p i N p iS=i=1,NXi , , ~ 20, ~ 0,1P(Xi=1)=piNpi

  2. Nous avons les données pour les résultats des variables aléatoires de Bernoulli: ,Xi,jSj=i=1,NXi,j

  3. Si nous estimons le avec une estimation du maximum de vraisemblance (et obtenons ), il s'avère que est beaucoup plus grand que attendue par les autres critères:ppiP { S = 3 } ( p M L E i ) P { S = 3 } ( p M L E i ) - P e x p e c t e d { S = 3 } 0,05p^iMLEP^{S=3}(p^iMLE)P^{S=3}(p^iMLE)P^expected{S=3}0.05

  4. Ainsi, et ne peuvent pas être traités comme indépendants (ils ont une petite dépendance).XiXj (j>k)

  5. Il existe des contraintes comme celles-ci: et (connu), ce qui devrait aider à estimer .Σ s 2 P { S = s } = A P { S }pi+1pis2P^{S=s}=AP{S}

Comment pourrions-nous essayer de modéliser la somme des variables aléatoires de Bernoulli dans ce cas?

Quelle littérature pourrait être utile pour résoudre la tâche?

MISE À JOUR

Il y a d'autres idées:

(1) Il est possible de supposer que la dépendance inconnue entre commence après 1 ou plusieurs succès en série. Ainsi, lorsque , et .i = 1 , K X i >0 p K + 1 p K + 1 p K + 1 < p K + 1Xii=1,KXi>0pK+1pK+1pK+1<pK+1

(2) Pour utiliser MLE, nous avons besoin du modèle le moins discutable. Voici une variante:

Σ i = 1 , k X i = 0 P { X 1 , . . . , X k , X k + 1 , . . . , X NP{X1,...,Xk}=(1p1)...(1pk) si pour tout k if et , et pour tout k.i=1,kXi=0i = 1 , k - 1 X i = 0 X k = 1 P { X k + 1 = 1 , X k + 2 = 1 ,P{X1,...,Xk,Xk+1,...,XN}=(1p1)...pkP{Xk+1,...,XN}i=1,k1Xi=0Xk=1P{Xk+1=1,Xk+2=1,...,XN=1}pk+1pk+2...pN

(3) Puisque nous ne nous intéressons qu'à nous pouvons définir (la probabilité de succès de pour N- (k + 1) +1 sommets de la queue). Et utilisez la paramétrisationP ' { X k + 1 , . . . , X N } P { i = 1 , k X i = s ; N - ( k + 1 ) + 1 = l } i = k + 1 , N X i P { P{S}P{Xk+1,...,XN}P{i=1,kXi=s;N(k+1)+1=l}i=k+1,NXiP{i=k,NXi=s;Nk+1=l}=ps,l

(4) Utiliser MLE pour le modèle basé sur les paramètres et avec pour (et tout ) et quelques autres contraintes natives .p 0 , 1 , p 1 , 1 ; p 0 , 2 , p 1 , 2 , p 2 , 2 ; . . . p s , l = 0 s 6 lp1,...,pNp0,1,p1,1;p0,2,p1,2,p2,2;...ps,l=0s6l

Est-ce que tout va bien avec ce plan?

MISE À JOUR 2

Quelques exemples de distribution empirique (rouge) par rapport à la distribution de Poisson (bleu) (les moyennes de poisson sont 2,22 et 2,45, les tailles d'échantillon sont 332 et 259):P{S}

sample1 sample2

Pour les échantillons (A1, A2) avec les moyens de poisson 2,28 et 2,51 (les tailles d'échantillon sont 303 et 249):

sample3 sample4

Pour le samlpe A1 + A2 joint (la taille de l'échantillon est de 552):

échantillon 3 + échantillon 4

On dirait qu'une correction de Poisson devrait être le meilleur modèle :).

Andrey
la source
2
Que sont les ? Xi,j
chl
1
@Andrey Les formules en (2) et la deuxième contrainte en (4) n'ont aucun sens: que signifient les chapeaux en (4)? Qu'est-ce que ? (Vous avez seulement défini , pas ) L'expression dans (4) est-elle une somme de trois produits ou autre chose? S j SSSjS
whuber
Xi,j sont des résultats aléatoires de Bernoulli (le i-ème résultat de la j-ème série), est le j-ème résultat de la somme (la somme sur la série). est la variable aléatoire de la somme; les chapeaux en (4) signifient les estimations. Donc , il y a quelques informations supplémentaires sur la somme des valeurs les plus faibles de . Désolé pour la confusion. SjSS
Andrey

Réponses:

3

Une approche consisterait à modéliser les avec un modèle linéaire généralisé (GLM). Ici, vous , la probabilité de réussite du ème essai en fonction (linéaire logistique) de l'historique d'observation récent. Vous ajustez donc essentiellement un GLM autorégressif où le bruit est Bernoulli et la fonction de liaison est logit. La configuration est la suivante:Xpii

pi=f(b+a1Xi1+a2Xi2+akXik) , où

f(x)=11+exp(x) , et

XiBernoulli(pi)

Les paramètres du modèle sont , qui peuvent être estimés par régression logistique. (Tout ce que vous avez à faire est de configurer votre matrice de conception en utilisant la partie pertinente de l'historique des observations à chaque essai et de la transmettre à une fonction d'estimation de régression logistique; la probabilité de log est concave, il y a donc un maximum global unique pour les paramètres). Si les résultats sont en effet indépendants, alors les seront mis à zéro; les positifs signifient que les suivants augmentent chaque fois qu'un succès est observé.a i a i p i{b,a1,ak}aiaipi

Le modèle ne fournit pas une expression simple pour la probabilité sur la somme des , mais cela est facile à calculer par simulation (filtrage des particules ou MCMC) car le modèle a une structure markovienne simple.Xi

Ce type de modèle a été utilisé avec grand succès pour modéliser les dépendances temporelles entre les "pointes" des neurones dans le cerveau, et il existe une littérature abondante sur les modèles de processus ponctuels autorégressifs. Voir, par exemple, Truccolo et al 2005 (bien que cet article utilise un Poisson au lieu d'une vraisemblance de Bernoulli, mais la cartographie de l'un à l'autre est simple).

jpillow
la source
1

Si la dépendance est due à l'agglutination, un modèle composé de Poisson pourrait être la solution en tant que modèle de . Une référence quelque peu aléatoire est celle de Barbour et Chryssaphinou.Sj

Dans une direction complètement différente, puisque vous indiquez que est 20, et donc relativement petit, pourrait être de construire un modèle graphique des , mais je ne sais pas si votre configuration et vos données le permettent. Comme le commente @chl, il sera utile de décrire les .X i j X i , jNXijXi,j

Si les représentent des mesures séquentielles, par exemple au fil du temps, et que la dépendance y est liée, une troisième possibilité - et pour certains étendre un compromis entre les deux suggestions ci-dessus - consiste à utiliser un modèle de Markov caché de les . X i , jXi,jXi,j

NRH
la source
X iXi,j sont des résultats aléatoires de Bernoulli. Désolé pour l'inexactitude. Ainsi, sont la somme des scores des équipes sportives pour des intervalles de temps égaux séquentiels. Il s'avère qu'après le premier but marqué, les probabilités du prochain but dans l'intervalle seront différentes. Xi
Andrey