Je comprends que lors de l'échantillonnage à partir d'une population finie et que notre taille d'échantillon est supérieure à 5% de la population, nous devons corriger la moyenne et l'erreur standard de l'échantillon à l'aide de cette formule:
Où est la taille de la population et est la taille de l'échantillon.n
J'ai 3 questions sur cette formule:
- Pourquoi le seuil est-il fixé à 5%?
- Comment la formule a-t-elle été dérivée?
- Existe-t-il d'autres ressources en ligne qui expliquent cette formule de manière complète en plus de ce document?
Réponses:
Le seuil est choisi de telle sorte qu'il assure la convergence de la distribution hypergéométrique ( est sa SD), au lieu d'une distribution binomiale (pour l'échantillonnage avec remplacement), vers une distribution normale ( il s'agit du théorème de limite centrale, voir par exemple, la courbe normale, le théorème de limite centrale et les inégalités de Markov et Chebychev pour les variables aléatoires ). En d'autres termes, lorsque (c'est-à-dire que n'est pas «trop grand» par rapport à ), le FPC peut être ignoré en toute sécurité; il est facile de voir comment le facteur de correction évolue en variant pour un fixe : avec , on aN−nN−1−−−−√ n N n N N = 10 , 000 FPC = 0,9995n/N≤0.05 n N n N N=10,000 FPC=.9995 lorsque tandis que lorsque . Lorsque , le FPC approche 1 et nous sommes proches de la situation de l'échantillonnage avec remplacement (ie, comme avec une population infinie).FPC = .3162 n = 9 , 000 N → ∞n=10 FPC=.3162 n=9,000 N→∞
Pour comprendre ces résultats, un bon point de départ est de lire quelques tutoriels en ligne sur la théorie de l'échantillonnage où l'échantillonnage est effectué sans remplacement ( échantillonnage aléatoire simple ). Ce didacticiel en ligne sur les statistiques non paramétriques présente une illustration sur le calcul de l'espérance et de la variance pour un total.
Vous remarquerez que certains auteurs utilisent au lieu de dans le dénominateur du FPC; en fait, cela dépend si vous travaillez avec la statistique de l'échantillon ou de la population: pour la variance, ce sera au lieu de si vous êtes intéressé par plutôt que .N - 1 N N - 1 S 2 σ 2N N−1 N N−1 S2 σ2
Quant aux références en ligne, je peux vous proposer
la source