Pourquoi la distribution t devient-elle plus normale à mesure que la taille de l'échantillon augmente?

19

Selon Wikipedia, je comprends que la distribution t est la distribution d'échantillonnage de la valeur t lorsque les échantillons sont des observations provenant d'une population normalement distribuée. Cependant, je ne comprends pas intuitivement pourquoi cela fait passer la forme de la distribution t de la queue grasse à presque parfaitement normale.

Je comprends que si vous échantillonnez à partir d'une distribution normale, alors si vous prenez un gros échantillon, cela ressemblera à cette distribution, mais je ne comprends pas pourquoi cela commence par la forme à queue grasse qu'il fait.

user1205901 - Réintégrer Monica
la source

Réponses:

22

Je vais essayer de donner une explication intuitive.

La statistique t * a un numérateur et un dénominateur. Par exemple, la statistique du test t à un échantillon est

x¯μ0s/n

* (il y en a plusieurs, mais cette discussion devrait, espérons-le, être assez générale pour couvrir celles dont vous parlez)

Selon les hypothèses, le numérateur a une distribution normale avec une moyenne de 0 et un écart-type inconnu.

Dans le même ensemble d'hypothèses, le dénominateur est une estimation de l'écart-type de la distribution du numérateur (l'erreur type de la statistique sur le numérateur). Il est indépendant du numérateur. Son carré est une variable aléatoire khi carré divisée par ses degrés de liberté (qui est également le df de la distribution t) multiplié par le numérateur .σnumerator

Lorsque les degrés de liberté sont faibles, le dénominateur a tendance à être assez asymétrique. Il a une forte chance d'être inférieur à sa moyenne et une relativement bonne chance d'être assez petit. Dans le même temps, il a également une chance d'être beaucoup, beaucoup plus grand que sa moyenne.

Dans l'hypothèse de normalité, le numérateur et le dénominateur sont indépendants. Donc, si nous tirons au hasard de la distribution de cette statistique t, nous avons un nombre aléatoire normal divisé par une deuxième valeur choisie au hasard * à partir d'une distribution asymétrique droite qui est en moyenne d'environ 1.

* sans égard au terme normal

Parce que c'est sur le dénominateur, les petites valeurs dans la distribution du dénominateur produisent de très grandes valeurs t. Le biais droit dans le dénominateur rend la statistique t à queue lourde. La queue droite de la distribution, lorsqu'elle est au dénominateur, fait que la distribution t atteint un pic plus marqué qu'une normale avec le même écart-type que le t .

Cependant, à mesure que les degrés de liberté deviennent importants, la distribution devient beaucoup plus normale et beaucoup plus "serrée" autour de sa moyenne.

entrez la description de l'image ici

Ainsi, l'effet de la division par le dénominateur sur la forme de la distribution du numérateur diminue à mesure que les degrés de liberté augmentent.

Finalement - comme le théorème de Slutsky pourrait nous le suggérer pourrait se produire - l'effet du dénominateur ressemble plus à la division par une constante et la distribution de la statistique t est très proche de la normale.


Considéré en termes de réciproque du dénominateur

whuber a laissé entendre dans ses commentaires qu'il serait peut-être plus éclairant d'examiner l'inverse du dénominateur. Autrement dit, nous pourrions écrire nos statistiques t en tant que numérateur (normal) multiplié par l'inverse du dénominateur (biais droit).

Par exemple, notre statistique à un échantillon t ci-dessus deviendrait:

n(x¯μ0)1/s

Considérons maintenant l'écart type de population de , σ x d'origine . On peut le multiplier et le diviser, comme ceci:Xiσx

n(x¯μ0)/σxσx/s

Le premier terme est standard normal. Le deuxième terme (la racine carrée d'une variable aléatoire chi-carré inversée mise à l'échelle) met ensuite à l'échelle cette normale standard en fonction de valeurs plus grandes ou plus petites que 1, "l'étalant".

Dans l'hypothèse de normalité, les deux termes du produit sont indépendants. Donc, si nous tirons au hasard de la distribution de cette statistique t, nous avons un nombre aléatoire normal (le premier terme du produit) fois une deuxième valeur choisie au hasard (sans égard au terme normal) à partir d'une distribution asymétrique à droite qui est ' généralement 'environ 1.

Lorsque les df sont grands, la valeur a tendance à être très proche de 1, mais lorsque les df sont petits, c'est assez asymétrique et la propagation est grande, la grande queue droite de ce facteur d'échelle rendant la queue assez grasse:

entrez la description de l'image ici

Glen_b -Reinstate Monica
la source
Merci! Cela a beaucoup clarifié, mais j'étais encore un peu incertain à propos de "Son carré est une variable aléatoire khi carré divisée par ses degrés de liberté (qui est aussi le df de la distribution t) fois [l'écart type du] numérateur ". L'avez-vous mentionné simplement parce que c'était une chose utile à savoir, ou est-ce quelque chose qui concerne directement la réponse à ma question? Je comprends que c'est la distribution du dénominateur, par opposition à la distribution du carré du dénominateur, qui est représentée dans votre figure.
user1205901
2
La distribution de la statistique serait plus lourde que la normale même si elle n'était pas spécifiquement la racine carrée d'un chi carré sur son df; en ce sens, cela ne modifierait pas directement la réponse pour la laisser de côté. Mais au moins, il sert à expliquer d'où viennent les distributions scaled- chi dans le diagramme.
Glen_b -Reinstate Monica
3
Je pense qu'il pourrait être un peu plus éclairant de mener cette analyse sur la base de l' inverse de l'écart-type de l'échantillon. Cela, couplé à un argument selon lequel l'échantillon SD est indépendant de la moyenne de l'échantillon (une idée clé qui bénéficierait d'un peu plus d'accentuation et d'explication, à mon humble avis), aiderait les gens à voir que la division de la moyenne de l'échantillon par l'échantillon SD doit étaler ce qui serait autrement une distribution normale. (C'était bien sûr tout le point de la découverte de Gossett.)
whuber
1
@whuber J'ai ajouté une section en discutant en termes de réciproque, mais j'ai également conservé la discussion d'origine (elle me semble plus directe, mais j'apprécie que beaucoup de gens puissent en tirer le meilleur parti en termes de réciproque) . J'ajouterai aussi un peu d'indépendance
Glen_b -Reinstate Monica
1
s/nσ/ns/σσ/sσ
Glen_b -Reinstate Monica
8

@Glen_b vous a donné l'intuition sur la raison pour laquelle la statistique t semble plus normale à mesure que la taille de l'échantillon augmente. Maintenant, je vais vous donner une explication un peu plus technique de l'affaire lorsque vous avez déjà obtenu la distribution de la statistique.

n1n

(1+x2n1)n/2n1B(n12,12).

Il est possible de montrer que

1n1B(n12,12)12π,

et

(1+x2n1)n/2exp(x2/2),

n . En prenant le produit de ces deux limites, vous pouvez voir que la densité de Student-t converge exactement vers la densité normale standard.

Kruger
la source
2
1/n(1+(x/n)2)1tn distribution et toujours arriver au même PDF limitant, mais tout le temps les distributions dans la séquence deviendrait plus grosse. La possibilité d'un comportement subtil comme celui-ci rend les arguments basés sur les limites des PDF moins que satisfaisants. En outre, ne pas la question demande vraiment petit
2
nn
2

Je voulais juste partager quelque chose qui a aidé mon intuition en tant que débutant (bien que ce soit moins rigoureux que les autres réponses).

Z,Z1,...,Zn

ZZ12+...+Zn2n

n degrés de liberté.

n1Zn devient grand.

E[Z2]=1nZi2nZi2 qui est un.

nZ1=Z

HJ_beginner
la source