Supposons que nous ayons un processus de Bernoulli avec une probabilité de défaillance (qui sera petite, disons ) à partir de laquelle nous échantillonnons jusqu'à ce que nous rencontrions défaillances. Nous estimons ainsi la probabilité de défaillance comme où est le nombre d'échantillons.q ≤ 0,01 10 q : = 10 / N N
Question : une estimation biaisée de ? Et si oui, existe-t-il un moyen de le corriger?
Je crains qu'insister sur le dernier échantillon soit un échec qui fausse l'estimation.
Réponses:
Il est vrai que est une estimation biaisée de dans le sens où , mais vous ne devez pas nécessairement laisser cela vous décourager. Ce scénario exact peut être utilisé comme une critique contre l'idée que nous devrions toujours utiliser des estimateurs non biaisés, car ici le biais est davantage un artefact de l'expérience particulière que nous faisons. Les données sont exactement comme si nous avions choisi le nombre d'échantillons à l'avance, alors pourquoi nos inférences devraient-elles changer? qE( q )≠qq^ q E ( q^) ≠ q
Fait intéressant, si vous collectiez des données de cette manière, puis notiez la fonction de vraisemblance sous les modèles binomiaux (taille d'échantillon fixe) et négatifs, vous constateriez que les deux sont proportionnels l'un à l'autre. Cela signifie que est juste l'estimation du maximum de vraisemblance ordinaire sous le modèle binomial négatif, qui est bien sûr une estimation parfaitement raisonnable.q^
la source
Il n'insiste pas sur le fait que le dernier échantillon est un échec qui fausse l'estimation, il prend l'inverse deN
Donc dans votre exemple mais . Ceci est proche de la comparaison de la moyenne arithmétique avec la moyenne harmonique E[10E [ Ndix] = 1q E [ 10N] ≠q
La mauvaise nouvelle est que le biais peut augmenter à mesure que diminue, mais pas beaucoup une fois que est déjà petit. La bonne nouvelle est que le biais diminue à mesure que le nombre d'échecs requis augmente. Il semble que si vous avez besoin de échecs, alors le biais est limité ci-dessus par un facteur multiplicatif de pour les petits ; vous ne voulez pas de cette approche lorsque vous vous arrêtez après le premier échec q f fq q F qFF- 1 q
Après échecs, avec vous obtiendrez mais , alors qu'avec vous obtiendrez mais . Un biais d'environ un facteur multiplicatif q = 0,01 E [ Ndix q= 0,01 E [ Ndix] =100 E [ 10N] ≈0.011097 q= 0,001 E [ Ndix] =1000 E [ 10N] ≈0.001111 dix9
la source
En complément de la réponse de dsaxton, voici quelques simulations dans R montrant la distribution d'échantillonnage de lorsque et :q^ k=10 q0=0.02
Il ressemble à , ce qui est un biais plutôt faible par rapport à la variabilité de .E[q^]≈0.022 q^
la source
10+rnbinom(10000,10,0.02)
10/(10+rnbinom(10000,10,0.02))
. Le paramétrage est en termes de nombre de succès / échecs plutôt que de nombre total d'essais, vous devrez donc ajouter k = 10 en retour. Notez que l'estimateur sans biais serait9/(9+rnbinom(10000,10,0.02))
, un de moins au numérateur et au dénominateur.