On m'a toujours appris que le CLT fonctionne lorsque vous répétez l'échantillonnage, chaque échantillon étant suffisamment grand. Par exemple, imaginez que j'ai un pays de 1 000 000 de citoyens. Ma compréhension de la CLT est que même si la distribution de leurs hauteurs n'était pas normale, si je prenais 1000 échantillons de 50 personnes (c'est-à-dire effectuons 1000 enquêtes de 50 citoyens chacun), puis calculais leur hauteur moyenne pour chaque échantillon, la distribution de ces échantillons les moyens seraient normaux.
Cependant, je n'ai jamais vu un cas réel où les chercheurs ont prélevé des échantillons répétés. Au lieu de cela, ils prennent un grand échantillon (c.-à-d. Sondent 50 000 citoyens sur leur taille) et travaillent à partir de cela.
Pourquoi les livres de statistiques enseignent-ils l'échantillonnage répété et dans le monde réel, les chercheurs ne conduisent qu'un seul échantillon?
Edit: Le cas du monde réel auquel je pense est de faire des statistiques sur un ensemble de données de 50 000 utilisateurs de Twitter. Cet ensemble de données n'est évidemment pas des échantillons répétés, c'est juste un grand échantillon de 50 000.
Réponses:
Le CLT (au moins sous certaines de ses diverses formes) nous indique que dans la limite de distribution d'un seul échantillon standardisé moyenne ( ) converge vers une distribution normale (sous certaines conditions).n→∞ X¯−μσ/n√
Le CLT ne nous dit pas ce qui se passe à ou .n=50 n=50,000
Mais en tentant de motiver le CLT, en particulier lorsqu'aucune preuve du CLT n'est offerte, certaines personnes s'appuient sur la distribution d'échantillonnage de pour les échantillons finis et montrent que lorsque des échantillons plus importants sont prélevés, la distribution d'échantillonnage se rapproche de la Ordinaire.X¯
À strictement parler, cela ne démontre pas le CLT, c'est plus près de démontrer le théorème de Berry-Esseen, car il démontre quelque chose sur la vitesse à laquelle l'approche de la normalité entre en jeu - mais cela nous conduirait à son tour au CLT, donc cela sert assez bien de motivation (et en fait, quelque chose comme le Berry-Esseen se rapproche de toute façon de ce que les gens veulent réellement utiliser dans des échantillons finis, de sorte que la motivation peut dans un certain sens être plus utile dans la pratique que le théorème de la limite centrale lui-même) .
Eh bien, non, ils ne seraient pas normaux mais ils seraient en pratique très proches de la normale (les hauteurs sont quelque peu asymétriques mais pas très asymétriques).
[Notez encore que le CLT ne nous dit vraiment rien sur le comportement des moyennes d'échantillon pour ; c'est à cela que je voulais en venir avec ma discussion précédente sur Berry-Esseen, qui traite de la distance d'un cdf normal la fonction de distribution des moyennes normalisées peut être pour des échantillons finis]n=50
Pour de nombreuses distributions, une moyenne d'échantillon de 50 000 articles aurait très proche d'une distribution normale - mais ce n'est pas garanti, même à n = 50 000 que vous aurez très proche d'une distribution normale (si la distribution des articles individuels est suffisamment par exemple, alors la distribution des moyennes des échantillons peut encore être suffisamment asymétrique pour rendre intenable une approximation normale).
(Le théorème de Berry-Esseen nous amènerait à prévoir que ce problème pourrait se produire - et il est évident que c'est le cas. échantillon normalisé signifie être proche de la normale.)
la source