approximation normale de la distribution binomiale: pourquoi np> 5?

9

Presque tous les manuels qui traitent de l'approximation normale de la distribution binomiale mentionnent la règle générale selon laquelle l'approximation peut être utilisée si np5 et n(1p)5. Certains livres suggèrentnp(1p)5au lieu. La même constante5 apparaît souvent dans les discussions sur le moment de fusionner les cellules dans le χ2-tester. Aucun des textes que j'ai trouvés ne fournit une justification ou une référence à cette règle empirique.

D'où vient cette constante 5? Pourquoi pas 4 ou 6 ou 10? Où cette règle d'or a-t-elle été introduite à l'origine?

jochen
la source
5
C'est une règle d'or. Si c'était rigoureux, vous n'auriez pas besoin du pouce.
Hong Ooi
2
J'ai aussi vu np(1p)>9 et np(1p)>10.
Glen_b -Reinstate Monica

Réponses:

7

Certaines possibilités sont offertes par l'article de Wikipedia sur la distribution binomiale, dans la section sur l'approximation normale , qui comprend actuellement le commentaire suivant (c'est moi qui souligne):

Une autre règle couramment utilisée est que les deux valeurs np et n(1p)doit être supérieur à 5. Cependant, le nombre spécifique varie d'une source à l'autre et dépend de la qualité d'une approximation souhaitée.

Maintenant là, cela est associé à assurer que l'approximation normale xN(μ,σ) tombe dans les limites légales pour une variable binomiale, x[0,n].

Pour le dire, si nous paramétrons la probabilité de couverture souhaitée en termes de z-score z>0, ensuite nous avons

μ±zσ[0,n]zσmin[μ,nμ]z2min[μ2σ2,(nμ)2σ2]
En utilisant les moments binomiaux et , les contraintes ci-dessus nécessitent Donc pour cette approche, correspondrait à une probabilité de couverture de où est le CDF normal standard .μ=npσ2=np(1p)
min[p,1p]nz2
z2=5
Φ[5]Φ[5]97.5%
Φ

Donc, dans la mesure où cette probabilité de couverture est "jolie" et 5 est un joli chiffre rond ... qui pourrait peut-être donner une justification? Je n'ai pas beaucoup d'expérience avec les textes de probabilité, donc je ne peux pas dire à quel point le "5" est courant, par rapport à d'autres "nombres spécifiques" pour utiliser le phrasé de Wikipedia. Mon sentiment est qu'il n'y a rien de vraiment spécial à propos de 5, et Wikipedia suggère que 9 est également courant (correspondant à un "joli" de 3).z

GeoMatt22
la source
4

Pas une explication complète, mais il est intéressant de revenir à Cochran 1952 Annals of Math Stats "Le de la qualité de l'ajustement" ( http://www.jstor.org/stable/2236678 ), Partie II (" Quelques aspects de l'utilisation pratique du test "), qui est d'une antiquité assez respectable dans le domaine ... Cochran discute de l'histoire des fondements théoriques du test (Pearson 1900, Fisher 1922, 1924), mais ne touche pas sur la règle empirique jusqu'au passage suivant ... [non souligné dans l'original]χ2

7. L'attente minimale . Étant donné que x2 a été établi comme la distribution limite de X2 dans de grands échantillons, il est habituel de recommander, dans les applications du test, que le plus petit nombre attendu dans n'importe quelle classe soit 10 ou (avec certains auteurs) 5. ... le sujet a récemment fait l'objet de vives discussions entre les psychologues [17], [18]. Les numéros 10 et 5 semblent avoir été choisis arbitrairement. Quelques enquêtes jettent un peu de lumière sur la pertinence de la règle. L'approche a consisté à examiner la distribution exacte de X2, lorsque certaines ou toutes les attentes sont faibles, soit par des méthodes mathématiques, soit par des expériences d'échantillonnage.

Les enquêtes sont rares et de portée limitée, comme on peut s'y attendre car les travaux de ce type prennent du temps. Ainsi, les recommandations ci-dessous peuvent nécessiter des modifications lorsque de nouvelles preuves deviennent disponibles.

Pour nous éloigner un instant, le problème de l'enquête sur le comportement de X2 lorsque les attentes sont faibles est un exemple de toute une classe de problèmes qui sont pertinents pour les statistiques appliquées. Dans les applications, il est courant d'utiliser les résultats d'un ensemble de théories dans des situations où nous savons, ou soupçonnons fortement, que certaines des hypothèses de la théorie sont invalides. Ainsi, la littérature contient des recherches sur la distribution t lorsque la population parente n'est pas normale et sur les performances des estimations de régression linéaire lorsque la régression dans la population est en fait non linéaire. Heureusement pour les applications, les résultats de la théorie restent parfois substantiellement vrais même lorsque certaines hypothèses ne tiennent pas. Ce fait tend à faire des statistiques un sujet plus déroutant que les mathématiques pures,

Ben Bolker
la source
1

En plus des excellentes réponses déjà publiées, j'ai pensé qu'il pourrait être utile d'avoir une visualisation explorant les distributions des proportions observées pour les valeurs et variables .np

Pour générer les histogrammes ci-dessous, j'ai prélevé échantillons d'un essai de Bernoulli avec une probabilité , et j'ai répété ce processus 10 000 fois. J'ai ensuite généré un histogramme des proportions observées à partir de chacune de ces 10 000 expériences.np

Tracé desdits histogrammes

Visuellement, il semble que soit assez raisonnable. Bien que lorsque il semble y avoir encore des coupures avec et . Une fois que vous arrivez à , l'impact semble assez faible.np5n=50np=5.5np=6.5np=7.5

Notez également que ces parcelles seraient symétriques car si nous avons pris de nouvelles valeurs de .pp=(1p)

Code Python pour générer les tracés. Vous pouvez l'utiliser pour modifier et si vous voulez vous expérimenter vous-même.np

import matplotlib.pyplot as plt
import numpy as np
np.random.seed(20190915)


def make_hists(axs, n):
    proportions = np.linspace(0.01, 0.19, len(axs))
    for i, prop in enumerate(proportions):
        # Draw n samples 10,000 times
        x = np.random.rand(n, 10_000) < prop
        means = x.mean(axis=0)
        axs[i].hist(means, bins=np.linspace(0, 0.5, n//2))
        axs[i].set_xlim([0, 0.5])
        axs[i].set_yticklabels([])
        ylim_mean = np.mean(axs[i].get_ylim())
        axs[i].text(-0.08, ylim_mean * 3/2, f'$p={prop:.2f}$', va='center')
        axs[i].text(-0.08, ylim_mean * 2/3, f'$np={n * prop:.1f}$', va='center')
    axs[0].set_title(f'$n={n}$')

def main():
    f, axs = plt.subplots(10, 2, sharex=True, figsize=(12, 8))
    make_hists(axs[:, 0], 50)
    make_hists(axs[:, 1], 250)
    f.suptitle(
        'Histograms of 10,000 sample proportions, varying $p$ and $n$',
        fontsize=14
    )
    plt.show()

main()
kbrose
la source
0

La règle fournit un critère qui garantit que p n'est ni proche de 0 ni de 1. S'il est plus proche de 0 ou 1, la distribution résultante ne sera pas une bonne approximation de la distribution normale.

Vous pouvez voir une justification picturale de la même chose ici

Bach
la source
2
Oui je suis d'accord. Mais fournirait également un tel critère. Alors pourquoi 5? np(1p)>10
jochen