Comment décidez-vous de la taille de l'échantillon lorsque vous sondez une grande population?

15

L'Australie organise actuellement des élections et il est compréhensible que les médias rapportent quotidiennement les nouveaux résultats des sondages politiques. Dans un pays de 22 millions d'habitants, quel pourcentage de la population devrait être échantillonné pour obtenir un résultat statistiquement valide?

Est-il possible que l'utilisation d'un échantillon trop grand puisse affecter les résultats, ou la validité statistique augmente-t-elle de façon monotone avec la taille de l'échantillon?

brotchie
la source

Réponses:

13

La taille de l'échantillon ne dépend pas beaucoup de la taille de la population, ce qui est contre-intuitif pour beaucoup.

La plupart des entreprises de sondage utilisent 400 ou 1 000 personnes dans leurs échantillons.

Il y a une raison pour cela:

Un échantillon de 400 vous donnera un intervalle de confiance de +/- 5% 19 fois sur 20 (95%)

Un échantillon de 1000 vous donnera un intervalle de confiance de +/- 3% 19 fois sur 20 (95%)

Quand vous mesurez une proportion proche de 50% de toute façon.

Cette calculatrice n'est pas mauvaise:

http://www.raosoft.com/samplesize.html

Neil McGuigan
la source
6
Mais notez que tout cela est basé sur l'échantillonnage d'une population homogène. Si vous avez une population hétérogène (par exemple des proportions différentes pour différents sous-groupes, l'échantillonnage de parties rares des populations), cette estimation de variance n'est pas si fiable. Les estimations que vous calculez ici concernent (je pense) une population que représente votre échantillon. La question est: cette population vous intéresse-t-elle réellement?
probabilitéislogic
9

Supposons que vous vouliez savoir quel pourcentage de personnes voteraient pour un candidat particulier (disons, , notez que par définition π est compris entre 0 et 100). Vous échantillonnez N électeurs au hasard pour savoir comment ils voteraient et votre sondage auprès de ces N électeurs vous indique que le pourcentage est de p . Vous souhaitez donc établir un intervalle de confiance pour le vrai pourcentage.ππNNp

Si vous supposez que est normalement distribué (une hypothèse qui peut être justifiée ou non selon la taille de N ), alors votre intervalle de confiance pourpN serait de la forme suivante: C I = [ p - k s d ( p ) , p + k s d ( p ) ] k est une constante qui dépend du degré de confiance que vous souhaitez (c.-à-d. 95% ou 99%, etc.).π

Cje=[p-ks(p),  p+ks(p)]
k

MoE=ks(p)

Voici comment nous procéderions au calcul s(p)p=Xje/NXje=1je0

Xje

Vuner(P)=V(XjeN)=V(Xje)N2=Nπ(1-π)N2=π(1-π)N.
s(p)=π(1-π)N
πs(p)π=0,5
s(p)=0,50,5/N=0,5/N
NN

k=1,96N=1000

[p-1,960,51000,  p+1,960,51000]=[p-0,03,  p+0,03]
NNπ=50%
Communauté
la source
2

En général, chaque fois que vous échantillonnez une fraction des personnes d'une population, vous obtiendrez une réponse différente que si vous échantillonnez à nouveau le même nombre (mais éventuellement des personnes différentes).

Donc, si vous voulez savoir combien de personnes en Australie ont> = 30 ans, et si la vraie fraction (Dieu nous a dit) se trouvait justement être 0,4, et si nous demandons à 100 personnes, le nombre moyen auquel nous pouvons nous attendre disent qu'ils sont> = 30 est 100 x 0,4 = 40, et l'écart-type de ce nombre est +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 ou 4,9% (distribution binomiale).

Étant donné que cette racine carrée est là, lorsque la taille de l'échantillon augmente de 100 fois, l'écart-type diminue de 10 fois. Donc, en général, pour réduire l'incertitude d'une mesure comme celle-ci d'un facteur 10, vous devez échantillonner 100 fois plus de personnes. Donc, si vous demandez 100 x 100 = 10000 personnes, l'écart-type irait jusqu'à 49 ou, en pourcentage, à 0,49%.

Mike Dunlavey
la source