Certains livres indiquent qu'un échantillon de taille 30 ou plus est nécessaire pour que le théorème de la limite centrale donne une bonne approximation de .
Je sais que cela ne suffit pas pour toutes les distributions.
Je souhaite voir quelques exemples de distributions où, même avec un échantillon de grande taille (peut-être 100 ou 1000 ou plus), la distribution de la moyenne de l'échantillon est encore assez asymétrique.
Je sais que j'ai déjà vu de tels exemples auparavant, mais je ne me souviens pas où et je ne les trouve pas.
Réponses:
Cette règle d'or courante est à peu près complètement inutile. Il existe des distributions non normales pour lesquelles n = 2 fonctionnera correctement et des distributions non normales pour lesquelles beaucoup plus grand est insuffisant - donc sans restriction explicite sur les circonstances, la règle est trompeuse. Dans tous les cas, même si c'était un peu vrai, le n requis varierait en fonction de ce que vous faisiez. Souvent, vous obtenez de bonnes approximations près du centre de la distribution à petit n , mais vous avez besoin d'un n beaucoup plus grand pour obtenir une approximation décente dans la queue.n n n n
Edit: Voir les réponses à cette question pour des opinions nombreuses mais apparemment unanimes sur cette question, et quelques bons liens. Je ne m'attarderai cependant pas sur ce point, car vous le comprenez déjà clairement.
Les exemples sont relativement faciles à construire; un moyen simple est de trouver une distribution infiniment divisible qui n'est pas normale et de la diviser. Si vous en avez un qui s'approchera de la normale lorsque vous calculez la moyenne ou le résumez, commencez à la limite de «proche de la normale» et divisez-le autant que vous le souhaitez. Ainsi, par exemple:
Considérons une distribution Gamma avec le paramètre de forme . Prenez l'échelle comme 1 (l'échelle n'a pas d'importance). Supposons que vous considérez comme juste "suffisamment normal". Alors une distribution pour laquelle vous devez obtenir 1000 observations pour être suffisamment normale a une distribution .α Gamma ( α 0 / 1000 , 1 )Gamma ( α0, 1 ) Gamma ( α0/ 1000,1)
Donc, si vous pensez qu'un Gamma avec est juste «assez normal» -α = 20
Divisez ensuite par 1000, pour obtenir :α = 0,02α = 20 α = 0,02
La moyenne de 1000 d'entre eux aura la forme du premier pdf (mais pas son échelle).
Si vous choisissez plutôt une distribution infiniment divisible qui ne se rapproche pas de la normale, comme par exemple le Cauchy, alors il peut ne pas y avoir de taille d'échantillon pour laquelle les moyennes des échantillons ont des distributions approximativement normales (ou, dans certains cas, elles peuvent toujours s'approcher de la normalité, mais vous n'avez pas d'effet pour l'erreur standard).σ/ n--√
@ l'argument de whuber au sujet des distributions contaminées est très bon; il peut être utile d'essayer une simulation avec ce cas et de voir comment les choses se comportent sur de nombreux échantillons.
la source
la source
Vous pourriez trouver cet article utile (ou au moins intéressant):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
Les chercheurs de l'UMass ont en fait mené une étude similaire à ce que vous demandez. À quelle taille d'échantillon certaines données distribuées suivent-elles une distribution normale due au CLT? Apparemment, beaucoup de données collectées pour des expériences de psychologie ne sont pas du tout distribuées normalement, donc la discipline s'appuie assez fortement sur CLT pour faire des inférences sur ses statistiques.
Curieusement, 65% des données normalement distribuées ont été rejetées avec un échantillon de 20, et même avec un échantillon de 30, 35% ont tout de même été rejetées.
Ils ont ensuite testé plusieurs distributions fortement asymétriques créées à l'aide de la méthode d'alimentation de Fleishman:
X représente la valeur tirée de la distribution normale tandis que a, b, c et d sont des constantes (notez que a = -c).
Ils ont effectué les tests avec des échantillons allant jusqu'à 300
Ils ont constaté qu'aux niveaux les plus élevés de biais et de kurt (1,75 et 3,75), la taille des échantillons de 300 ne produisait pas de moyennes d'échantillonnage qui suivaient une distribution normale.
Malheureusement, je ne pense pas que ce soit exactement ce que vous recherchez, mais je suis tombé dessus et je l'ai trouvé intéressant, et j'ai pensé que vous pourriez le faire aussi.
la source