Exemple de distribution où une grande taille d'échantillon est nécessaire pour le théorème de la limite centrale

19

Certains livres indiquent qu'un échantillon de taille 30 ou plus est nécessaire pour que le théorème de la limite centrale donne une bonne approximation de . X¯

Je sais que cela ne suffit pas pour toutes les distributions.

Je souhaite voir quelques exemples de distributions où, même avec un échantillon de grande taille (peut-être 100 ou 1000 ou plus), la distribution de la moyenne de l'échantillon est encore assez asymétrique.

Je sais que j'ai déjà vu de tels exemples auparavant, mais je ne me souviens pas où et je ne les trouve pas.

Graphth
la source
5
Considérons une distribution Gamma avec le paramètre de forme . Prenez l'échelle comme 1 (cela n'a pas d'importance). Disons que vous considériez comme juste "suffisamment normal". Ensuite, une distribution pour laquelle vous devez obtenir 1000 observations pour être suffisamment normale a une distribution . Gamma ( α 0 , 1 )αGamma(α0,1)Gamma(α0/1000,1)
Glen_b -Reinstate Monica
1
@Glen_b, pourquoi ne pas en faire une réponse officielle et la développer un peu?
gung - Rétablir Monica
4
Toute distribution suffisamment contaminée fonctionnera, dans le même sens que l'exemple de @ Glen_b. Par exemple , lorsque la distribution sous-jacente est un mélange d'un Normal (0,1) et d'un Normal (valeur énorme, 1), ce dernier n'ayant qu'une faible probabilité d'apparaître, alors des choses intéressantes se produisent: (1) la plupart du temps , la contamination n'apparaît pas et il n'y a aucune preuve d'asymétrie; mais (2) parfois la contamination apparaît et l'asymétrie de l'échantillon est énorme. La distribution de la moyenne de l'échantillon sera très asymétrique, mais le bootstrap ( par exemple ) ne la détectera généralement pas.
whuber
1
L'exemple de @ whuber est instructif, montrant que le théorème central limite peut, en théorie, être arbitrairement trompeur. Dans les expériences pratiques, je suppose qu'il faut se demander s'il pourrait y avoir un effet énorme qui se produit très rarement et appliquer le résultat théorique avec un peu de circonspection.
David Epstein

Réponses:

19

Certains livres indiquent une taille de l' échantillon de taille 30 ou plus est nécessaire pour le théorème de la limite centrale pour donner une bonne approximation pour .X¯

Cette règle d'or courante est à peu près complètement inutile. Il existe des distributions non normales pour lesquelles n = 2 fonctionnera correctement et des distributions non normales pour lesquelles beaucoup plus grand est insuffisant - donc sans restriction explicite sur les circonstances, la règle est trompeuse. Dans tous les cas, même si c'était un peu vrai, le n requis varierait en fonction de ce que vous faisiez. Souvent, vous obtenez de bonnes approximations près du centre de la distribution à petit n , mais vous avez besoin d'un n beaucoup plus grand pour obtenir une approximation décente dans la queue.nnnn

Edit: Voir les réponses à cette question pour des opinions nombreuses mais apparemment unanimes sur cette question, et quelques bons liens. Je ne m'attarderai cependant pas sur ce point, car vous le comprenez déjà clairement.

Je veux voir quelques exemples de distributions où même avec un grand échantillon (peut-être 100 ou 1000 ou plus), la distribution de la moyenne de l'échantillon est encore assez asymétrique.

Les exemples sont relativement faciles à construire; un moyen simple est de trouver une distribution infiniment divisible qui n'est pas normale et de la diviser. Si vous en avez un qui s'approchera de la normale lorsque vous calculez la moyenne ou le résumez, commencez à la limite de «proche de la normale» et divisez-le autant que vous le souhaitez. Ainsi, par exemple:

Considérons une distribution Gamma avec le paramètre de forme . Prenez l'échelle comme 1 (l'échelle n'a pas d'importance). Supposons que vous considérez comme juste "suffisamment normal". Alors une distribution pour laquelle vous devez obtenir 1000 observations pour être suffisamment normale a une distribution .αGamma ( α 0 / 1000 , 1 )Gamma(α0,1)Gamma(α0/1000,1)

Donc, si vous pensez qu'un Gamma avec est juste «assez normal» -α=20

Gamma (20) pdf

Divisez ensuite par 1000, pour obtenir :α = 0,02α=20α=0,02

Gamma (0,02) pdf

La moyenne de 1000 d'entre eux aura la forme du premier pdf (mais pas son échelle).

Si vous choisissez plutôt une distribution infiniment divisible qui ne se rapproche pas de la normale, comme par exemple le Cauchy, alors il peut ne pas y avoir de taille d'échantillon pour laquelle les moyennes des échantillons ont des distributions approximativement normales (ou, dans certains cas, elles peuvent toujours s'approcher de la normalité, mais vous n'avez pas d'effet pour l'erreur standard).σ/n

@ l'argument de whuber au sujet des distributions contaminées est très bon; il peut être utile d'essayer une simulation avec ce cas et de voir comment les choses se comportent sur de nombreux échantillons.

Glen_b -Reinstate Monica
la source
12

σσtχ2ttn=30s2X¯

Frank Harrell
la source
2
s2
9

Vous pourriez trouver cet article utile (ou au moins intéressant):

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

Les chercheurs de l'UMass ont en fait mené une étude similaire à ce que vous demandez. À quelle taille d'échantillon certaines données distribuées suivent-elles une distribution normale due au CLT? Apparemment, beaucoup de données collectées pour des expériences de psychologie ne sont pas du tout distribuées normalement, donc la discipline s'appuie assez fortement sur CLT pour faire des inférences sur ses statistiques.

α=0,05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

Curieusement, 65% des données normalement distribuées ont été rejetées avec un échantillon de 20, et même avec un échantillon de 30, 35% ont tout de même été rejetées.

Ils ont ensuite testé plusieurs distributions fortement asymétriques créées à l'aide de la méthode d'alimentation de Fleishman:

Oui=uneX+bX2+cX3+X4

X représente la valeur tirée de la distribution normale tandis que a, b, c et d sont des constantes (notez que a = -c).

Ils ont effectué les tests avec des échantillons allant jusqu'à 300

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

Ils ont constaté qu'aux niveaux les plus élevés de biais et de kurt (1,75 et 3,75), la taille des échantillons de 300 ne produisait pas de moyennes d'échantillonnage qui suivaient une distribution normale.

Malheureusement, je ne pense pas que ce soit exactement ce que vous recherchez, mais je suis tombé dessus et je l'ai trouvé intéressant, et j'ai pensé que vous pourriez le faire aussi.

Eric Peterson
la source
4
" Curieusement, 65% des données normalement distribuées ont été rejetées avec un échantillon de 20, et même avec un échantillon de 30, 35% ont toujours été rejetées. " - alors on dirait qu'elles utilisent le test mal; comme test de normalité sur des données normales complètement spécifiées (à quoi sert le test), si elles les utilisent correctement, elles doivent être exactes .
Glen_b -Reinstate Monica
5
@Glen_b: Il existe plusieurs sources d'erreur potentielle ici. Si vous lisez le document, vous remarquerez que ce qui est répertorié comme "normal" ici est en fait des variations aléatoires normales avec une moyenne de 50 et un écart-type de 10 arrondi à l'entier le plus proche . Donc, dans ce sens, le test utilisé utilise déjà une distribution mal spécifiée. En second lieu , il encore semble qu'ils ont réalisé les tests de manière incorrecte, que mes tentatives de spectacle de réplication pour une moyenne d'échantillon en utilisant 20 ces observations, la probabilité de rejet est d' environ 27%. (suite)
cardinal
5
(suite) Troisièmement, indépendamment de ce qui précède, certains logiciels peuvent utiliser la distribution asymptotique et non la distribution réelle, bien qu'à des tailles d'échantillon de 10K, cela ne devrait pas trop d'importance (si des liens n'avaient pas été artificiellement induits sur les données). Enfin, nous trouvons la déclaration suivante plutôt étrange vers la fin de ce document: Malheureusement, les propriétés du test KS dans S-PLUS limitent le travail. Les valeurs de p pour la présente étude ont toutes été compilées à la main sur les multiples réplications. Un programme est nécessaire pour calculer les valeurs de p et les juger par rapport au niveau alpha choisi.
cardinal
3
Salut @Glen_b. Je ne crois pas que l'arrondi réduira le taux de rejet ici parce que je crois qu'ils testaient par rapport à la vraie distribution normale standard en utilisant les données arrondies (c'est ce que je voulais dire en disant que le test utilisait une distribution mal spécifiée). (Peut-être pensiez-vous plutôt à utiliser le test KS sur une distribution discrète.) La taille de l'échantillon pour le test KS était de 10000, pas 20; ils ont fait 20 répétitions à un échantillon de 10000 chacun pour obtenir le tableau. Du moins, c'était ma compréhension de la description en parcourant le document.
cardinal
3
@cardinal - vous avez raison, bien sûr, alors cela pourrait peut-être être à l'origine d'une partie substantielle des rejets à des échantillons de grande taille. Re: " La taille de l'échantillon pour le test KS était de 10000, pas 20 " ... d'accord, cela semble de plus en plus étrange. On peut se demander pourquoi ils pensent que l'une ou l'autre de ces conditions a beaucoup de valeur, plutôt que de dire le contraire.
Glen_b -Reinstate Monica