Pourquoi le théorème central limite fonctionne-t-il avec un seul échantillon?

12

On m'a toujours appris que le CLT fonctionne lorsque vous répétez l'échantillonnage, chaque échantillon étant suffisamment grand. Par exemple, imaginez que j'ai un pays de 1 000 000 de citoyens. Ma compréhension de la CLT est que même si la distribution de leurs hauteurs n'était pas normale, si je prenais 1000 échantillons de 50 personnes (c'est-à-dire effectuons 1000 enquêtes de 50 citoyens chacun), puis calculais leur hauteur moyenne pour chaque échantillon, la distribution de ces échantillons les moyens seraient normaux.

Cependant, je n'ai jamais vu un cas réel où les chercheurs ont prélevé des échantillons répétés. Au lieu de cela, ils prennent un grand échantillon (c.-à-d. Sondent 50 000 citoyens sur leur taille) et travaillent à partir de cela.

Pourquoi les livres de statistiques enseignent-ils l'échantillonnage répété et dans le monde réel, les chercheurs ne conduisent qu'un seul échantillon?

Edit: Le cas du monde réel auquel je pense est de faire des statistiques sur un ensemble de données de 50 000 utilisateurs de Twitter. Cet ensemble de données n'est évidemment pas des échantillons répétés, c'est juste un grand échantillon de 50 000.

Anton
la source
Prendre un échantillon de 1 000 sur 50 000 équivaut presque à prendre 1 000 échantillons individuels indépendamment de 50 000. Plus l'échantillon est petit (ou plus grand est l'univers), plus ils se ressemblent.
Thomas Ahle

Réponses:

14

Le CLT (au moins sous certaines de ses diverses formes) nous indique que dans la limite de distribution d'un seul échantillon standardisé moyenne ( ) converge vers une distribution normale (sous certaines conditions).nX¯μσ/n

Le CLT ne nous dit pas ce qui se passe à ou .n=50n=50,000

Mais en tentant de motiver le CLT, en particulier lorsqu'aucune preuve du CLT n'est offerte, certaines personnes s'appuient sur la distribution d'échantillonnage de pour les échantillons finis et montrent que lorsque des échantillons plus importants sont prélevés, la distribution d'échantillonnage se rapproche de la Ordinaire.X¯

À strictement parler, cela ne démontre pas le CLT, c'est plus près de démontrer le théorème de Berry-Esseen, car il démontre quelque chose sur la vitesse à laquelle l'approche de la normalité entre en jeu - mais cela nous conduirait à son tour au CLT, donc cela sert assez bien de motivation (et en fait, quelque chose comme le Berry-Esseen se rapproche de toute façon de ce que les gens veulent réellement utiliser dans des échantillons finis, de sorte que la motivation peut dans un certain sens être plus utile dans la pratique que le théorème de la limite centrale lui-même) .

la distribution de ces moyennes d'échantillon serait normale.

Eh bien, non, ils ne seraient pas normaux mais ils seraient en pratique très proches de la normale (les hauteurs sont quelque peu asymétriques mais pas très asymétriques).

[Notez encore que le CLT ne nous dit vraiment rien sur le comportement des moyennes d'échantillon pour ; c'est à cela que je voulais en venir avec ma discussion précédente sur Berry-Esseen, qui traite de la distance d'un cdf normal la fonction de distribution des moyennes normalisées peut être pour des échantillons finis]n=50

Le cas du monde réel auquel je pense est de faire des statistiques sur un ensemble de données de 50 000 utilisateurs de Twitter. Cet ensemble de données n'est évidemment pas des échantillons répétés, c'est juste un grand échantillon de 50 000.

Pour de nombreuses distributions, une moyenne d'échantillon de 50 000 articles aurait très proche d'une distribution normale - mais ce n'est pas garanti, même à n = 50 000 que vous aurez très proche d'une distribution normale (si la distribution des articles individuels est suffisamment par exemple, alors la distribution des moyennes des échantillons peut encore être suffisamment asymétrique pour rendre intenable une approximation normale).

(Le théorème de Berry-Esseen nous amènerait à prévoir que ce problème pourrait se produire - et il est évident que c'est le cas. échantillon normalisé signifie être proche de la normale.)

Glen_b -Reinstate Monica
la source
Pour vérifier si 50 000 est assez grand, on pourrait faire une simulation en R par exemple, correct? J'utiliserais la moyenne et l'écart-type de l'échantillon, mais comment m'assurer de simuler à partir de la même distribution de mon échantillon?
Amonet
À strictement parler, vous devez simuler à partir de la répartition de la population. Vous pouvez traiter la distribution de votre échantillon comme une estimation de la distribution de la population (cela s'apparente au bootstrap) - mais cela ne sera pas suffisant à cette fin. Par exemple, envisagez d'avoir tiré un échantillon d'une distribution de Cauchy, puis rééchantillonné à partir de celui-ci avec remplacement. (pour des échantillons de plus en plus grands), jusqu'à ce que la distribution des moyennes rééchantillonnées apparaisse "suffisamment normale". Vous conclurez toujours qu'une certaine taille d'échantillon est suffisante, mais en vérité, elle ne le sera jamais.
Glen_b -Reinstate Monica