Estimation des paramètres d'un binôme

8

Je voudrais tout d'abord préciser que je ne suis pas un expert du sujet.

Supposons que deux variables aléatoires et soient binomiales, respectivement X \ sim B (n_1, p) et Y \ sim B (n_2, p), notez ici que p est le même. Je sais que Z = X + Y \ sim B (n_1 + n_2, p).XYXB(n1,p)YB(n2,p),pZ=X+YB(n1+n2,p).

Soit {x1,,xk} un échantillon pour X et {y1,,yk} un échantillon pour Y , existe-t-il une méthode standard pour estimer n=n1+n2 et p ?

C'est ce que nous avons fait:

  1. prendre le "nouvel échantillon" pour Z donné par {x1+y1,,xk+yk} ,
  2. en utilisant l'estimateur de vraisemblance, nous obtenons des estimations pour n et p ,
  3. avec les informations de Fisher, nous essayons de comprendre les erreurs sur n et p .

La méthode semble fonctionner, mais nous avons encore quelques doutes. Soit Sk le groupe de permutation sur k éléments. Pour chaque σSk nous pouvons considérer "l'échantillon" donné par {x1+yσ(1),,xk+yσ(k)}.En appliquant l'estimateur de vraisemblance pour chacun des "nouveaux échantillons" (il y a k! Sommes différentes), nous obtenons une estimation différente (nσ,pσ) pour n et p .

Qu'est-ce que cela veut dire? Comment les nouvelles valeurs nσ,pσ sont-elles corrélées? Il peut être utilisé pour calculer l'erreur pour n ?

Quelques commentaires: La question a déjà été postée ici , mais un utilisateur me suggère d'utiliser tats / SE validé.

Dans l'exemple que j'ai en tête, est le nombre d'oiseaux dans une région donnée et la probabilité de visibilité. J'ai besoin d'agréger des régions avec un similaire , sinon les données sont trop petites. En particulier j'ai besoin, si possible, d'une estimation uniquement pour , où a priori est inconnunppnp

Un exemple Afin d'être clair et au vu de la réponse de kjetil b halvorsen, je vais essayer de mettre ici un exemple pratique. Supposons que nous ayons une seule région divisée en deux zones avec une probabilité égale à un fixe et nos données sont les suivantes:p

Zone 1   Zone 2
  a1      b1
  a2      b2
  a3      b3
  a4      b4
  a5      b5
  a6      b6

On peut alors considérer ceci:

Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
   c4
   c5
   c6

Ensuite, nous pouvons utiliser la méthode du loglik vraisemblance afin d'estimer et aussi où est le paramètre pour le binôme des variables observées dans la Zone . Est ce juste?N1+N2pNii

Maintenant, je sais que la méthode de vraisemblance n'est pas stable (pour moi, stable signifie seulement bon). Pouvons-nous utiliser les informations Fisher? Si oui, quel type d'informations pouvons-nous avoir?

Soit enfin et deux permutations sur éléments (il y a couples différents) que l'on puisse considérer les nouvelles données données parστ6(6!)2

Zone 1 + 2
c1 = a + b c2 = a + b c3 = a + b c4 = a + b c5 = a + b c6 = a + bσ(1)τ(1)
σ(2)τ(2)
σ(3)τ(3)
σ(4)τ(4)
σ(5)τ(5)
σ(6)τ(6)

En refaisant la méthode de vraisemblance, avec ces nouvelles variables, on obtient différentes estimations pour .N1+N2

La question est donc la suivante: l'ensemble d'estimation me donne-t-il des informations sur les erreurs?

amorvincomni
la source
Vous devriez donner plus de détails. Combien de régions souhaitez-vous utiliser (supposez que le même paramètre de visibilité ? (Le Q en suppose deux))? Combien d'échantillons avez-vous pour chaque région? (Je suppose que ce sont des comptes sur des intervalles de temps disjoints d'égale longueur?) Puisque votre paramètre d'intérêt est et l'approche de leur somme ne peut pas être correcte! reviendra quand vous aurez répondu ...pn1n2
kjetil b halvorsen
@kjetilbhalvorsen: Le nombre de régions dans mon Q est de et j'ai 6 échantillons pour chaque région. Les comptages se font sur des intervalles de longueur égale (mais est supposé constant). Je suis intéressé par et non par le seul . J'espère que cela peut vous aider. 2nin1+n2ni
amorvincomni
Une autre question: quelle est la taille (approximative) des chiffres? Dans les dizaines? des centaines? milliers? Avez-vous une idée des valeurs probables de ? Très lent? (Si les nombres sont plus importants, alors peut-être pouvons-nous essayer une approximation de poisson?p
kjetil b halvorsen
J'ai essayé d'agréger les chiffres parce que les chiffres étaient bas. En réalité, j'ai 5 zones différentes (une zone correspond à des régions avec la même probabilité.) Dans chaque zone, j'ai quelque chose comme régions. Les différents nombres varient de à (le semble pas être lié et peut varier de à quelque chose de plus de ). Mais les données agrégées peuvent différer de la permutation que nous choisissons. (Par exemple, dans une zone de régions avec comptes pour chaque région, il y a agrégations différentes). Enfin semble être proche de . 15025ni025106(6!)10p.7
amorvincomni
2
Vous aurez également beaucoup à gagner à avoir des priorités informatives, car il y a un problème d'identification entre n et p.
Arthur B.

Réponses:

12

Je vais essayer une réponse, même si je ne suis pas complètement clair sur la situation. Les formules devront être adaptées! Le problème de l'estimation de dans la distribution binomiale est ancien et il existe plusieurs articles pertinents. Je donnerai quelques références à la fin. N

Soit régions (dans l'exemple OP ), avec échantillons (d'intervalles de temps disjoints d'égale longueur) de chaque région. Les variables observées sont qui sont des variables aléatoires binomiales indépendantes, chacune avec la distribution toutes deux inconnues. La fonction log-vraisemblance devient Notez que, dans le problème habituel lorsque est connu de sorte que seul est inconnu, alors la somme (ou la moyenne) du binôme compteRR=2TxitBin(Ni,p)

(Ni,p)=ln(Nixit)+lnpxit+ln(1p)(Nixit)
Nipxitest un résumé suffisant, donc l'analyse peut être faite en termes de distribution binomiale de la somme. Dans notre problème, cependant, en raison du premier terme de la fonction log-vraisemblance, ce n'est pas le cas, et la log-vraisemblance dépend de chacun des comptes individuellement! Donc, ce que vous proposez, pour réduire à la somme des chiffres (sur ), NE DEVRAIT PAS ÊTRE FAIT, car cela perdra des informations (combien, je ne sais pas, mais cela peut être étudié ...). Essayons de mieux comprendre cela. Tout d'abord, nous voyons ci-dessous que est un estimateur cohérent deimaxt(xit)Ni, mais cet estimateur cohérent n'est pas fonction des comptes sommés. C'est une indication claire que la sommation perd des informations! Notez également que la moyenne est un estimateur non biaisé de son espérance qui est , mais ne semble pas contenir d'informations sur et individuellement, quand on ne sait rien de l'autre paramètre. Cela indique que s'il existe des informations utiles sur dans la fonction de vraisemblance, celles-ci doivent être contenues dans la répartition des valeursNipNipNixi1,xiT, indiquant à nouveau que la sommation est mauvaise. L'article d'Olkin et al référencé ci-dessous montre en effet que l'estimateur de la méthode des moments est dans bien des cas meilleur que la vraisemblance maximale! et qui utilise la variance empirique des , donc n'a pas pu être calculée à partir des données sommées.xi1,xiT

Ce problème est connu pour être instable. Essayons de comprendre pourquoi. Dans le problème habituel, en estimant lorsque connu, l'estimation peut être effectuée à partir d'une caractéristique brute des données, la moyenne. Lorsque nous essayons d'estimer à la fois et , nous utilisons des propriétés beaucoup plus fines de la fonction log-vraisemblance (donc des données). Pour voir pourquoi, rappelons que l'on peut obtenir la distribution de Poisson comme limite du binôme lorsque va à zéro et croît sans bornes, avec un produit positif constant. Donc, si est petit etpNiNippNpNgrande, la distribution binomiale sera assez proche de cette limite. Prenons deux cas: (A) , (B) . Dessinez des histogrammes pour les deux distributions (binomiales):N=100,p=0.01N=20,p=0.05

> zapsmall(cbind(0:20,pA,pB))
               pA       pB
 [1,]  0 0.366032 0.358486
 [2,]  1 0.369730 0.377354
 [3,]  2 0.184865 0.188677
 [4,]  3 0.060999 0.059582
 [5,]  4 0.014942 0.013328
 [6,]  5 0.002898 0.002245
 [7,]  6 0.000463 0.000295
 [8,]  7 0.000063 0.000031
 [9,]  8 0.000007 0.000003
[10,]  9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000

Ci-dessus un tableau de ces probabilités. Pour détecter à partir des données observées laquelle de ces deux distributions on a, c'est ce qu'il faut pour décider, dans ce cas, si ou si . C'est évidemment assez difficile, et l'instabilité des estimateurs résultants est à prévoir. Cet exemple indique également que l'instabilité concerne principalement les petits . Vous dites que vous attendez autour de 0,7, donc le problème pourrait être plus stable alors. Vous pouvez étudier cela pour vos données en trouvant l'estimateur du maximum de vraisemblance en fonction d'un connu et en traçant celui deN=100N=20ppppdans un certain intervalle de confiance. Ou vous pourriez aller plein Bayes, c'est un cas où même des informations préalables plutôt vagues pourraient être utiles.

Les paramètres sont en effet estimables. Il est clair que , il est donc possible d'utiliser ce nombre maximum comme estimateur de . Cet estimateur sera fortement cohérent et un paramètre avec un estimateur cohérent doit être estimable. Mais, comme le montre l'exemple ci-dessus, l'estimabilité est presque une formalité; en pratique, les distributions avec très différents sont très proches, donc est très faiblement estimable.Nimaxt(xit)NNN

Je ne vais pas donner de détails sur les méthodes d'estimation ici, mais donner quelques références que vous pouvez consulter:

Ingram Olkin, A John Petkau, James V Zidek: une comparaison de N estimateurs pour la distribution binomiale. JASA 1981. Il s'agit d'un article classique qui développe et analyse des estimateurs de ML et de moment, et quelques variantes de stabilisateur. Cela montre également, de manière intéressante, que dans de nombreux cas l'estimateur de la méthode des moments est meilleur que l'estimateur ML!

Raymond J Carrol et F Lombard: Une note sur N estimateurs pour la distribution binomiale. JASA 1985.
Développe un estimateur alternatif, plus stable et peut-être meilleur, basé sur l'intégration de hors de la vraisemblance. Note également le manque de suffisance des comptes sommés.p

J Andrew Royle: N_Mixture Models for Estimating Population Size from Spatially Replicated Counts. Biometrics, 2004. Cela donne une autre approche bayésienne alternative que vous pouvez essayer.

Revenons à votre question concrète. Vous NE DEVEZ PAS additionner les chiffres sur vos deux régions! Cela perdra des informations. Si vous introduisez alors la fonction log-vraisemblance peut être écrite en fonction de , et (ou ). Ensuite, le paramètre supplémentaire doit être éliminé par une procédure. J'y reviendrai, mais non il n'y a pas de temps! N=N1+N2NpN1N2N1

kjetil b halvorsen
la source
1
Merci pour votre réponse, malheureusement je ne peux pas voter. Je suis désolé si je n'ai pas été clair, mais pour la somme, je veux dire la somme sur différentes zones. J'ai fait une mise à niveau dans mon Q, en ajoutant un exemple (théorique) et quelques questions peut-être plus compréhensibles.
amorvincomni
1
Malgré que cette réponse soit entièrement détaillée, j'ai encore un doute: supposons que j'ai une caméra pour chaque région, et supposons que les caméras se trouvent dans des régions voisines (mais sans flux). Je m'intéresse uniquement à et non aux valeurs simples et . Y a-t-il une différence en prenant un seul gros appareil photo? Les variables observées de la grande caméra sont toujours des binômes de paramètreCe que je perds (il me semble), ce ne sont que des informations sur le comportement local, mais ce n'est pas important pour moi. NN1N2yt1=xt1+xt2N,p.
amorvincomni
1
Ce n'est pas correct! Les informations sur sont contenues dans la variation des chiffres individuels! N
kjetil b halvorsen