Je suis un débutant dans les statistiques, donc si je fais des hypothèses erronées ici, dites-le moi.
Il y a une population N
. (Par exemple, N
peut être 1 000 000.) Certaines personnes sont des rousses. Je prends un échantillon n
de personnes (disons 10) et je trouve que j
ce sont des rousses.
Que puis-je dire sur la proportion générale de rousses dans la population? Je veux dire, ma meilleure approximation est probablement j/n
, mais quel serait l'écart-type de cette approximation?
Soit dit en passant, quel est le terme accepté pour cela?
standard-deviation
sample-size
binomial
standard-error
Ram Rachum
la source
la source
Réponses:
Vous pouvez considérer cela comme un essai binomial - vos essais échantillonnent "rousse" ou "non lue". Dans ce cas, vous pouvez construire un intervalle de confiance pour votre proportion d'échantillon ( ) comme documenté sur Wikipedia:j / n
Un intervalle de confiance à 95% indique essentiellement qu'en utilisant le même algorithme d'échantillonnage, si vous répétiez cette opération 100 fois, la véritable proportion se situerait dans l'intervalle indiqué 95 fois.
Mise à jour Soit dit en passant, je pense que le terme que vous recherchez pourrait être une erreur standard qui est l'écart-type des proportions échantillonnées. Dans ce cas, c'est où est votre proportion estimée. Notez que lorsque augmente, l'erreur standard diminue.p ( 1 - p )n-----√ p n
la source
si votre taille d'échantillonn n'est pas une si petite fraction de la taille de la populationN comme dans votre exemple, et si vous échantillonnez sans remplacement [Sw / oR], une meilleure expression pour la SE [estimée] est
oùp^ est la proportion estimée j/n et q^=1−p^ .
[le termeN−nN est appelé le FPC [correction de population finie].
bien que la remarque de whuber soit techniquement correcte, elle semble suggérer que rien ne peut être fait pour obtenir, disons, un intervalle de confiance pour la vraie proportionp . sin est suffisamment grand pour rendre une approximation normale raisonnable [np>10 , disons], il est peu probable j=0 . aussi, si la taille de l'échantillon est suffisamment grande pour une approximation normale en utilisant le vraiSE être raisonnable, en utilisant SE^ donne également une approximation raisonnable.
[si votren est vraiment petit et vous utilisez Sw / oR, vous devrez peut-être utiliser la distribution hypergéométrique exacte pour j au lieu d'une approximation normale. si vous faites SwR, la taille deN est hors de propos et vous pouvez utiliser des méthodes binomiales exactes pour obtenir un CI pour p .]
en tout cas, puisquep(1−p)≤1/4 , on pourrait toujours être conservateur et utiliser 12n√ au lieu de p^q^n−−−√ Au dessus. si vous faites cela, il faut un échantillon den=1,111 pour obtenir une ME estimée [marge d'erreur = 2SE^ ] de ± .03 [quelle que soit sa taille N est!].
la source