Disons que j'ai les numéros suivants:
4,3,5,6,5,3,4,2,5,4,3,6,5
J'en échantillonne certains, disons 5 d'entre eux, et calcule la somme de 5 échantillons. Ensuite, je le répète encore et encore pour obtenir de nombreuses sommes, et je trace les valeurs des sommes dans un histogramme, qui sera gaussien en raison du théorème de la limite centrale.
Mais quand ils suivent des nombres, je viens de remplacer 4 par un grand nombre:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
L'échantillonnage de 5 échantillons de ceux-ci ne devient jamais gaussien dans l'histogramme, mais ressemble plus à une scission et devient deux gaussiens. Pourquoi donc?
Réponses:
Rappelons précisément ce que dit le théorème de la limite centrale.
Ceci est souvent utilisé sous la forme "informelle":
Il n'y a aucun bon moyen de rendre mathématiquement cette forme de CLT précise, puisque la distribution "limite" change, mais c'est utile dans la pratique.
Quand nous avons une liste statique de nombres comme
et nous échantillonnons en prenant un nombre au hasard dans cette liste, pour appliquer le théorème de la limite centrale, nous devons être sûrs que notre schéma d'échantillonnage satisfait ces deux conditions d'indépendance et est identique.
Donc, si nous utilisons un échantillonnage de remplacement dans votre schéma, nous devrions être en mesure d'appliquer le théorème de la limite centrale. En même temps, vous avez raison, si notre échantillon est de taille 5, alors nous allons voir un comportement très différent selon que le très grand nombre est choisi ou non dans notre échantillon.
Alors, quel est le hic? Eh bien, le taux de convergence vers une distribution normale dépend beaucoup de la forme de la population à partir de laquelle nous échantillonnons, en particulier, si notre population est très asymétrique, nous nous attendons à ce qu'il prenne beaucoup de temps pour converger vers la normale. C'est le cas dans notre exemple, il ne faut donc pas s'attendre à ce qu'un échantillon de taille 5 soit suffisant pour montrer la structure normale.
Ci-dessus, j'ai répété votre expérience (avec échantillonnage de remplacement) pour des échantillons de taille 5, 100 et 1000. Vous pouvez voir que la structure normale émerge pour de très grands échantillons.
(*) Notez que certaines conditions techniques sont nécessaires ici, comme la moyenne finie et la variance. Ils sont facilement vérifiés pour être vrais dans notre échantillonnage à partir d'un exemple de liste.
la source
En général, la taille de chaque échantillon doit être supérieure à pour que l'approximation CLT soit bonne. Une règle d' or est un échantillon de taille ou plus. Mais, avec la population de votre premier exemple, est OK.5 30 5
Dans votre deuxième exemple, en raison de la forme de la répartition de la population (d'une part, c'est trop asymétrique; lisez les commentaires de guy et Glen_b ci-dessous), même des échantillons de taille ne vous donneront pas une bonne approximation pour la distribution de la moyenne de l'échantillon en utilisant le CLT.30
Mais, avec cette deuxième population, les échantillons de, disons, la taille sont très bien.100
la source
Je voudrais juste expliquer, en utilisant des fonctions complexes générant des cumulants , pourquoi tout le monde continue de blâmer cela de travers.
la source
En bref, vous n'avez pas un échantillon suffisamment grand pour appliquer le théorème de la limite centrale.
la source