L'Australie organise actuellement des élections et il est compréhensible que les médias rapportent quotidiennement les nouveaux résultats des sondages politiques. Dans un pays de 22 millions d'habitants, quel pourcentage de la population devrait être échantillonné pour obtenir un résultat statistiquement valide?
Est-il possible que l'utilisation d'un échantillon trop grand puisse affecter les résultats, ou la validité statistique augmente-t-elle de façon monotone avec la taille de l'échantillon?
la source
Supposons que vous vouliez savoir quel pourcentage de personnes voteraient pour un candidat particulier (disons, , notez que par définition π est compris entre 0 et 100). Vous échantillonnez N électeurs au hasard pour savoir comment ils voteraient et votre sondage auprès de ces N électeurs vous indique que le pourcentage est de p . Vous souhaitez donc établir un intervalle de confiance pour le vrai pourcentage.π π N N p
Si vous supposez que est normalement distribué (une hypothèse qui peut être justifiée ou non selon la taille de N ), alors votre intervalle de confiance pourp N serait de la forme suivante:
C I = [ p - k ∗ s d ( p ) , p + k ∗ s d ( p ) ]
où k est une constante qui dépend du degré de confiance que vous souhaitez (c.-à-d. 95% ou 99%, etc.).π
Voici comment nous procéderions au calculs d( p ) p = ∑ Xje/ N Xje= 1 je 0
la source
En général, chaque fois que vous échantillonnez une fraction des personnes d'une population, vous obtiendrez une réponse différente que si vous échantillonnez à nouveau le même nombre (mais éventuellement des personnes différentes).
Donc, si vous voulez savoir combien de personnes en Australie ont> = 30 ans, et si la vraie fraction (Dieu nous a dit) se trouvait justement être 0,4, et si nous demandons à 100 personnes, le nombre moyen auquel nous pouvons nous attendre disent qu'ils sont> = 30 est 100 x 0,4 = 40, et l'écart-type de ce nombre est +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 ou 4,9% (distribution binomiale).
Étant donné que cette racine carrée est là, lorsque la taille de l'échantillon augmente de 100 fois, l'écart-type diminue de 10 fois. Donc, en général, pour réduire l'incertitude d'une mesure comme celle-ci d'un facteur 10, vous devez échantillonner 100 fois plus de personnes. Donc, si vous demandez 100 x 100 = 10000 personnes, l'écart-type irait jusqu'à 49 ou, en pourcentage, à 0,49%.
la source