Presque tous les manuels qui traitent de l'approximation normale de la distribution binomiale mentionnent la règle générale selon laquelle l'approximation peut être utilisée si et . Certains livres suggèrentau lieu. La même constante apparaît souvent dans les discussions sur le moment de fusionner les cellules dans le -tester. Aucun des textes que j'ai trouvés ne fournit une justification ou une référence à cette règle empirique.
D'où vient cette constante 5? Pourquoi pas 4 ou 6 ou 10? Où cette règle d'or a-t-elle été introduite à l'origine?
Réponses:
Certaines possibilités sont offertes par l'article de Wikipedia sur la distribution binomiale, dans la section sur l'approximation normale , qui comprend actuellement le commentaire suivant (c'est moi qui souligne):
Maintenant là, cela est associé à assurer que l'approximation normalex ∼ N( μ , σ) tombe dans les limites légales pour une variable binomiale, x ∈ [ 0 , n ] .
Pour le dire, si nous paramétrons la probabilité de couverture souhaitée en termes de z-scorez> 0 , ensuite nous avons
Donc, dans la mesure où cette probabilité de couverture est "jolie" et 5 est un joli chiffre rond ... qui pourrait peut-être donner une justification? Je n'ai pas beaucoup d'expérience avec les textes de probabilité, donc je ne peux pas dire à quel point le "5" est courant, par rapport à d'autres "nombres spécifiques" pour utiliser le phrasé de Wikipedia. Mon sentiment est qu'il n'y a rien de vraiment spécial à propos de 5, et Wikipedia suggère que 9 est également courant (correspondant à un "joli" de 3).z
la source
Pas une explication complète, mais il est intéressant de revenir à Cochran 1952 Annals of Math Stats "Le de la qualité de l'ajustement" ( http://www.jstor.org/stable/2236678 ), Partie II (" Quelques aspects de l'utilisation pratique du test "), qui est d'une antiquité assez respectable dans le domaine ... Cochran discute de l'histoire des fondements théoriques du test (Pearson 1900, Fisher 1922, 1924), mais ne touche pas sur la règle empirique jusqu'au passage suivant ... [non souligné dans l'original]χ2
la source
En plus des excellentes réponses déjà publiées, j'ai pensé qu'il pourrait être utile d'avoir une visualisation explorant les distributions des proportions observées pour les valeurs et variables .n p
Pour générer les histogrammes ci-dessous, j'ai prélevé échantillons d'un essai de Bernoulli avec une probabilité , et j'ai répété ce processus 10 000 fois. J'ai ensuite généré un histogramme des proportions observées à partir de chacune de ces 10 000 expériences.n p
Visuellement, il semble que soit assez raisonnable. Bien que lorsque il semble y avoir encore des coupures avec et . Une fois que vous arrivez à , l'impact semble assez faible.n p ≥ 5 n = 50 n p = 5,5 n p = 6,5 n p = 7,5
Notez également que ces parcelles seraient symétriques car si nous avons pris de nouvelles valeurs de .p′ p′=(1−p)
Code Python pour générer les tracés. Vous pouvez l'utiliser pour modifier et si vous voulez vous expérimenter vous-même.n p
la source
La règle fournit un critère qui garantit que p n'est ni proche de 0 ni de 1. S'il est plus proche de 0 ou 1, la distribution résultante ne sera pas une bonne approximation de la distribution normale.
Vous pouvez voir une justification picturale de la même chose ici
la source