Je voudrais tout d'abord préciser que je ne suis pas un expert du sujet.
Supposons que deux variables aléatoires et soient binomiales, respectivement X \ sim B (n_1, p) et Y \ sim B (n_2, p), notez ici que p est le même. Je sais que Z = X + Y \ sim B (n_1 + n_2, p).
Soit un échantillon pour et un échantillon pour , existe-t-il une méthode standard pour estimer et ?
C'est ce que nous avons fait:
- prendre le "nouvel échantillon" pour donné par ,
- en utilisant l'estimateur de vraisemblance, nous obtenons des estimations pour et ,
- avec les informations de Fisher, nous essayons de comprendre les erreurs sur et .
La méthode semble fonctionner, mais nous avons encore quelques doutes. Soit le groupe de permutation sur éléments. Pour chaque nous pouvons considérer "l'échantillon" donné par En appliquant l'estimateur de vraisemblance pour chacun des "nouveaux échantillons" (il y a Sommes différentes), nous obtenons une estimation différente pour et .
Qu'est-ce que cela veut dire? Comment les nouvelles valeurs sont-elles corrélées? Il peut être utilisé pour calculer l'erreur pour ?
Quelques commentaires: La question a déjà été postée ici , mais un utilisateur me suggère d'utiliser tats / SE validé.
Dans l'exemple que j'ai en tête, est le nombre d'oiseaux dans une région donnée et la probabilité de visibilité. J'ai besoin d'agréger des régions avec un similaire , sinon les données sont trop petites. En particulier j'ai besoin, si possible, d'une estimation uniquement pour , où a priori est inconnu
Un exemple Afin d'être clair et au vu de la réponse de kjetil b halvorsen, je vais essayer de mettre ici un exemple pratique. Supposons que nous ayons une seule région divisée en deux zones avec une probabilité égale à un fixe et nos données sont les suivantes:
Zone 1 Zone 2
a1 b1
a2 b2
a3 b3
a4 b4
a5 b5
a6 b6
On peut alors considérer ceci:
Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
c4
c5
c6
Ensuite, nous pouvons utiliser la méthode du loglik vraisemblance afin d'estimer et aussi où est le paramètre pour le binôme des variables observées dans la Zone . Est ce juste?
Maintenant, je sais que la méthode de vraisemblance n'est pas stable (pour moi, stable signifie seulement bon). Pouvons-nous utiliser les informations Fisher? Si oui, quel type d'informations pouvons-nous avoir?
Soit enfin et deux permutations sur éléments (il y a couples différents) que l'on puisse considérer les nouvelles données données par
Zone 1 + 2
c1 = a + b
c2 = a + b
c3 = a + b
c4 = a + b
c5 = a + b
c6 = a + b
En refaisant la méthode de vraisemblance, avec ces nouvelles variables, on obtient différentes estimations pour .
La question est donc la suivante: l'ensemble d'estimation me donne-t-il des informations sur les erreurs?
la source
Réponses:
Je vais essayer une réponse, même si je ne suis pas complètement clair sur la situation. Les formules devront être adaptées! Le problème de l'estimation de dans la distribution binomiale est ancien et il existe plusieurs articles pertinents. Je donnerai quelques références à la fin.N
Soit régions (dans l'exemple OP ), avec échantillons (d'intervalles de temps disjoints d'égale longueur) de chaque région. Les variables observées sont qui sont des variables aléatoires binomiales indépendantes, chacune avec la distribution toutes deux inconnues. La fonction log-vraisemblance devient Notez que, dans le problème habituel lorsque est connu de sorte que seul est inconnu, alors la somme (ou la moyenne) du binôme compteR R=2 T xit Bin(Ni,p) ℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit) Ni p xit est un résumé suffisant, donc l'analyse peut être faite en termes de distribution binomiale de la somme. Dans notre problème, cependant, en raison du premier terme de la fonction log-vraisemblance, ce n'est pas le cas, et la log-vraisemblance dépend de chacun des comptes individuellement! Donc, ce que vous proposez, pour réduire à la somme des chiffres (sur ), NE DEVRAIT PAS ÊTRE FAIT, car cela perdra des informations (combien, je ne sais pas, mais cela peut être étudié ...). Essayons de mieux comprendre cela. Tout d'abord, nous voyons ci-dessous que est un estimateur cohérent dei maxt(xit) Ni , mais cet estimateur cohérent n'est pas fonction des comptes sommés. C'est une indication claire que la sommation perd des informations! Notez également que la moyenne est un estimateur non biaisé de son espérance qui est , mais ne semble pas contenir d'informations sur et individuellement, quand on ne sait rien de l'autre paramètre. Cela indique que s'il existe des informations utiles sur dans la fonction de vraisemblance, celles-ci doivent être contenues dans la répartition des valeursNip Ni p Ni xi1…,xiT , indiquant à nouveau que la sommation est mauvaise. L'article d'Olkin et al référencé ci-dessous montre en effet que l'estimateur de la méthode des moments est dans bien des cas meilleur que la vraisemblance maximale! et qui utilise la variance empirique des , donc n'a pas pu être calculée à partir des données sommées.xi1…,xiT
Ce problème est connu pour être instable. Essayons de comprendre pourquoi. Dans le problème habituel, en estimant lorsque connu, l'estimation peut être effectuée à partir d'une caractéristique brute des données, la moyenne. Lorsque nous essayons d'estimer à la fois et , nous utilisons des propriétés beaucoup plus fines de la fonction log-vraisemblance (donc des données). Pour voir pourquoi, rappelons que l'on peut obtenir la distribution de Poisson comme limite du binôme lorsque va à zéro et croît sans bornes, avec un produit positif constant. Donc, si est petit etp Ni Ni p p N p N grande, la distribution binomiale sera assez proche de cette limite. Prenons deux cas: (A) , (B) . Dessinez des histogrammes pour les deux distributions (binomiales):N=100,p=0.01 N=20,p=0.05
Ci-dessus un tableau de ces probabilités. Pour détecter à partir des données observées laquelle de ces deux distributions on a, c'est ce qu'il faut pour décider, dans ce cas, si ou si . C'est évidemment assez difficile, et l'instabilité des estimateurs résultants est à prévoir. Cet exemple indique également que l'instabilité concerne principalement les petits . Vous dites que vous attendez autour de 0,7, donc le problème pourrait être plus stable alors. Vous pouvez étudier cela pour vos données en trouvant l'estimateur du maximum de vraisemblance en fonction d'un connu et en traçant celui deN=100 N=20 p p p p dans un certain intervalle de confiance. Ou vous pourriez aller plein Bayes, c'est un cas où même des informations préalables plutôt vagues pourraient être utiles.
Les paramètres sont en effet estimables. Il est clair que , il est donc possible d'utiliser ce nombre maximum comme estimateur de . Cet estimateur sera fortement cohérent et un paramètre avec un estimateur cohérent doit être estimable. Mais, comme le montre l'exemple ci-dessus, l'estimabilité est presque une formalité; en pratique, les distributions avec très différents sont très proches, donc est très faiblement estimable.Ni≥maxt(xit) N N N
Je ne vais pas donner de détails sur les méthodes d'estimation ici, mais donner quelques références que vous pouvez consulter:
Ingram Olkin, A John Petkau, James V Zidek: une comparaison de N estimateurs pour la distribution binomiale. JASA 1981. Il s'agit d'un article classique qui développe et analyse des estimateurs de ML et de moment, et quelques variantes de stabilisateur. Cela montre également, de manière intéressante, que dans de nombreux cas l'estimateur de la méthode des moments est meilleur que l'estimateur ML!
Raymond J Carrol et F Lombard: Une note sur N estimateurs pour la distribution binomiale. JASA 1985.p
Développe un estimateur alternatif, plus stable et peut-être meilleur, basé sur l'intégration de hors de la vraisemblance. Note également le manque de suffisance des comptes sommés.
J Andrew Royle: N_Mixture Models for Estimating Population Size from Spatially Replicated Counts. Biometrics, 2004. Cela donne une autre approche bayésienne alternative que vous pouvez essayer.
Revenons à votre question concrète. Vous NE DEVEZ PAS additionner les chiffres sur vos deux régions! Cela perdra des informations. Si vous introduisez alors la fonction log-vraisemblance peut être écrite en fonction de , et (ou ). Ensuite, le paramètre supplémentaire doit être éliminé par une procédure. J'y reviendrai, mais non il n'y a pas de temps!N=N1+N2 N p N1 N2 N1
la source