Question sur l'hypothèse de normalité du test t

9

Pour les tests t, selon la plupart des textes, on suppose que les données de population sont normalement distribuées. Je ne vois pas pourquoi. Un test t ne nécessite-t-il pas seulement que la distribution d'échantillonnage des moyennes d'échantillonnage soit normalement distribuée, et non la population?

S'il est vrai que le test t ne requiert finalement que la normalité dans la distribution d'échantillonnage, la population peut ressembler à n'importe quelle distribution, n'est-ce pas? Tant qu'il y a une taille d'échantillon raisonnable. N'est-ce pas ce que dit le théorème de la limite centrale?

(Je fais référence ici à des tests t d'échantillons indépendants ou à des échantillons indépendants)

Peter Nash
la source
1
Eh bien, la moyenne de l'échantillon en tant que variable aléatoire ne peut être normale que si les parties simples sont également normales. Mais vous avez raison: le test t est asymptotiquement non paramétrique (pas de distribution normale), mais les variances intra-groupe (dans la situation à deux échantillons) devraient toujours être similaires et existantes.
Michael M
Les variances intra-groupe étant similaires, faites-vous référence à l'hypothèse de l'homogénéité de la variance? Si oui, le test t du welch est correct, n'est-ce pas?
Peter Nash
Oui, exactement. Si les degrés de liberté corrigés de Welch vont à l'infini, alors sa procédure serait également sans distribution (citation nécessaire cependant ...).
Michael M

Réponses:

9

Pour les tests t, selon la plupart des textes, on suppose que les données de population sont normalement distribuées. Je ne vois pas pourquoi. Un test t ne nécessite-t-il pas seulement que la distribution d'échantillonnage des moyennes d'échantillonnage soit normalement distribuée, et non la population?

La statistique t consiste en un rapport de deux quantités, les deux variables aléatoires. Il ne s'agit pas seulement d'un numérateur.

Pour que la statistique t ait la distribution t, vous devez non seulement que la moyenne de l'échantillon ait une distribution normale. Tu as aussi besoin:

  • ss2/σ2χd2

  • que le numérateur et le dénominateur soient indépendants.

dtd=n1

Pour que ces trois choses soient réellement vraies, vous devez que les données d'origine soient normalement distribuées.

S'il est vrai que le test t ne requiert finalement que la normalité dans la distribution d'échantillonnage, la population peut ressembler à n'importe quelle distribution, n'est-ce pas?

Prenons iid comme indiqué un instant. Pour que le CLT tienne, la population doit répondre aux conditions ... - la population doit avoir une distribution à laquelle le CLT s'applique. Donc non, car il y a des distributions de population pour lesquelles le CLT ne s'applique pas.

Tant qu'il y a une taille d'échantillon raisonnable. N'est-ce pas ce que dit le théorème de la limite centrale?

Non, le CLT ne dit en fait pas un mot sur la "taille d'échantillon raisonnable".

En fait, il ne dit rien du tout sur ce qui se passe à n'importe quelle taille d'échantillon fini.

n=1015n


Vous avez donc deux problèmes:

A. L'effet que les gens attribuent habituellement au CLT - l'approche de plus en plus étroite de la normalité des distributions des moyennes des échantillons à des tailles d'échantillon petites / modérées - n'est pas réellement indiqué dans le CLT **.

B. "Quelque chose n'est pas si loin de la normale dans le numérateur" ne suffit pas pour obtenir la statistique ayant une distribution t

** (Quelque chose comme le théorème de Berry-Esseen vous permet de mieux comprendre ce que les gens voient lorsqu'ils examinent l'effet de l'augmentation de la taille de l'échantillon sur la distribution des moyennes des échantillons.)


nn

Glen_b -Reinstate Monica
la source
1
Pour que ces trois choses [normalité de la moyenne de l'échantillon, khi-carré de la variance de l'échantillon et indépendance des deux] soient réellement vraies, vous devez que les données d'origine soient normalement distribuées. Voulez-vous dire que seul le Normal possède ces trois propriétés? Je ne soutiens pas que la déclaration est fausse, je suis simplement curieux de savoir si c'est ce que vous dites.
Andrew M
2
@AndrewM Certes, seul le normal a les trois ensemble. De plus, la première ou la troisième suffit à elle seule à impliquer la normale - la troisième caractérise la normale ( Lukacs, 1942 ), et pour les nombres finis de variables aléatoires indépendantes, seule la normale a la première ( théorème de décomposition de Cramér ). Il est concevable qu'il existe un autre moyen d'obtenir le second, mais je n'en connais pas.
Glen_b -Reinstate Monica
@AndrewM pour le second, le travail d'Ahsanullah (1987, 1989) peut être pertinent.
Glen_b -Reinstate Monica
1
XAXA
@AndrewM La différence est que le résultat que vous citez ne dépend pas de l'indépendance, contrairement au résultat de Cramer. Ils sont tous les deux utiles à leur place.
Glen_b -Reinstate Monica