Erreur type pour la moyenne d'un échantillon de variables aléatoires binomiales

44

Supposons que je lance une expérience qui peut avoir 2 résultats et que je suppose que la "vraie" distribution sous-jacente des 2 résultats est une distribution binomiale avec les paramètres et : .npBinomial(n,p)

Je peux calculer l'erreur standard partir de la forme de la variance de : où . Donc, . Pour l'erreur standard, je reçois: , mais j'ai vu quelque part que . Qu'ai-je fait de mal?SEX=σXnBinomial(n,p)

σX2=npq
q=1pσX=npqSEX=pqSEX=pqn
Franc
la source
Cet article est très utile pour comprendre l'erreur type de la moyenne influentialpoints.com/Training/…
Sanghyun Lee
D'après mes recherches sur Google, il apparaît que le sujet étroitement lié d'obtenir des intervalles de confiance pour une distribution binomiale est plutôt nuancé et compliqué. En particulier, il semble que les intervalles de confiance obtenus à partir de cette formule, qui correspond à des "intervalles de Wald" (voir en.wikipedia.org/wiki/Binomial_proportion_confidence_interval ), sont plutôt mal conçus et doivent être évités. Voir jstor.org/stable/2676784?seq=1#metadata_info_tab_contents pour plus d'informations.
aquirdturtle

Réponses:

58

Il semble que vous utilisiez deux fois de deux manières différentes: à la fois comme taille d’échantillon et comme nombre d’essais de bernoulli comprenant la variable aléatoire binomiale; pour éliminer toute ambiguïté, je vais utiliser pour faire référence à cette dernière.knk

Si vous avez échantillons indépendants d’une distribution , la variance de leur moyenne d’échantillon estB i n o m i a l ( k , p )nBinomial(k,p)

var(1ni=1nXi)=1n2i=1nvar(Xi)=nvar(Xi)n2=var(Xi)n=kpqn

où et est la même moyenne. Cela suit depuis¯ Xq=1pX¯

(1) , pour toute variable aléatoire, , et toute constante .var(cX)=c2var(X)cXc

(2) la variance d'une somme de variables aléatoires indépendantes est égale à la somme des variances .

L'erreur type de est la racine carrée de la variance: . Par conséquent,X¯kpqn

  • Lorsque , vous obtenez la formule que vous avez indiquée:k=npq

  • Lorsque et que les variables binomiales ne sont que des essais bernoulli , vous obtenez la formule que vous avez vue ailleurs:k=1pqn

Macro
la source
3
Lorsque est une variable aléatoire bernoulli , alors . Quand a une variable aléatoire binomiale basée sur essais avec probabilité de succès , alorsv a r ( X ) = p q X n p v a r ( X ) = n p qXvar(X)=pqXnpvar(X)=npq
Macro
2
Merci! Vous avez levé ma confusion. Désolé que ce soit si élémentaire, j'apprends encore :-)
Frank, le
6
Donc, est-il clair pour Frank que nous utilisons le fait que pour toute constante c Var (cX) = c Var (x)? Puisque l'estimation de la proportion pour l'échantillon est X / n, nous avons Var (X / n) = Var (X) / n = npq / n = pq / n et SEx en est la racine carrée. Je pense que c'est plus clair pour tout le monde si nous énonçons toutes les étapes. 2 2222
Michael R. Chernick
1
@ Michael Chernick, j'ai clarifié les détails que vous avez mentionnés. D'après la description du problème, j'ai pensé que Frank connaissait ces faits, mais vous avez raison, il serait plus instructif pour les futurs lecteurs d'inclure les détails.
Macro
2
Sol Lago - Dans ce cas, k = 1. Si vous avez retourné une pièce 50 fois et calculé le nombre de succès, puis répété l'expérience 50 fois, alors k = n = 50. Un lancer d'une pièce donne un 1 ou un 0. C'est un rv Bernoulli
B_Miner
9

Il est facile de confondre deux distributions binomiales:

  • répartition du nombre de succès
  • répartition de la proportion de succès

npq est le nombre de succès, alors que npq / n = pq est le ratio de succès. Il en résulte différentes formules d'erreur standard.

Vlad
la source
6

Nous pouvons regarder cela de la manière suivante:

Supposons que nous fassions une expérience dans laquelle nous devions lancer une pièce impartiale fois. Le résultat global de l'expérience est qui est la somme des lancers individuels (par exemple, head en tant que 1 et tail en tant que 0). Donc, pour cette expérience, , où sont les résultats de lancers individuels.Y Y = n i = 1 X i X inYY=i=1nXiXi

Ici, le résultat de chaque tirage au sort, , suit une distribution de Bernoulli et le résultat global, une distribution binomiale. YXiY

L'expérience complète peut être pensée comme un échantillon unique. Ainsi, si nous répétons l'expérience, nous pouvons obtenir une autre valeur de , ce qui constituera un autre échantillon. Toutes les valeurs possibles de constitueront la population complète.YYY

Pour revenir au tirage au sort, qui suit une distribution de Bernoulli, la variance est donnée par , où est la probabilité de succès (tête) et .p q = 1 - ppqpq=1p

Maintenant, si nous regardons la variance de , . Mais, pour toutes les expériences individuelles de Bernoulli, . Puisqu'il y a essais ou essais de Bernoulli dans l'expérience, . Cela implique que a la variance .YV(Y)=V(Xi)=V(Xi)V(Xi)=pqnV(Y)=V(Xi)=npqYnpq

Maintenant, la proportion de l'échantillon est donnée par , ce qui donne la "proportion de succès ou de têtes". Ici, est une constante, car nous prévoyons d’effectuer le même nombre de lancers de pièces pour toutes les expériences de la population.p^=Ynn

Donc, .V(Yn)=(1n2)V(Y)=(1n2)(npq)=pq/n

Donc, l’erreur standard pour (un exemple de statistique) estp^pq/n

Tarashankar
la source
Vous pouvez utiliser la composition au latex en mettant des dollars dans vos calculs, par exemple, $x$donne . x
Silverfish
Notez que l'étape mérite vraiment une justification! V(Xi)=V(Xi)
Silverfish
Il y a une faute de frappe dans la dernière déduction, V (Y / n) = (1 / n ^ 2) * V (Y) = (1 / n ^ 2) * npq = pq / n doit être la déduction correcte.
Tarashankar
Toutes mes excuses, je l’ai présenté lors de la composition. Espérons que triés maintenant.
Silverfish
1
C'est vrai si les sont pas corrélés - pour justifier cela, nous utilisons le fait que les procès sont supposés être indépendants. Xi
Silverfish
2

Je pense qu'il y a aussi une certaine confusion dans le post initial entre erreur type et écart type. L'écart-type est le carré de la variance d'une distribution; L'erreur type est l'écart-type de la moyenne estimée d'un échantillon de cette distribution, c'est-à-dire l'étendue des moyennes que vous observeriez si vous échantillonniez cet échantillon infiniment de fois. Le premier est une propriété intrinsèque de la distribution; ce dernier est une mesure de la qualité de votre estimation d'une propriété (la moyenne) de la distribution. Lorsque vous effectuez une expérience d'essais de N. Bernouilli pour estimer la probabilité inconnue de succès, l'incertitude de votre estimation p = k / N après avoir constaté k succès est une erreur type de la proportion estimée, sqrt (pq / N) où q = 1 -p. La vraie distribution est caractérisée par un paramètre P, la vraie probabilité de succès.

Stan
la source