Si le test t et l'ANOVA de deux groupes sont équivalents, pourquoi leurs hypothèses ne sont-elles pas équivalentes?

47

Je suis sûr que je suis complètement enroulé autour de ma tête, mais je n'arrive pas à comprendre.

Le test t compare deux distributions normales utilisant la distribution Z. C'est pourquoi il y a une hypothèse de normalité dans les DONNÉES.

L'ANOVA équivaut à une régression linéaire avec des variables nominales et utilise la somme de carrés, comme pour MLS. C'est pourquoi on suppose une normalité de RESIDUALS.

Cela m'a pris plusieurs années, mais je pense avoir enfin compris ces faits fondamentaux. Alors, pourquoi le test t est-il équivalent à une ANOVA à deux groupes? Comment peuvent-ils être équivalents s'ils ne supposent même pas les mêmes choses à propos des données?

Chris Beeley
la source
15
Un point: les tests t utilisent la distribution t et non la distribution Z
Jeromy Anglim
1
Même si la question n'est pas correcte, elle est très utile. De plus, je pense que mentionner "un test t à deux queues" quelque part rendra les questions / réponses plus complètes.
Gaurav Singhal

Réponses:

29

Le test t avec deux groupes suppose que chaque groupe est normalement distribué avec la même variance (bien que les moyennes puissent différer selon l'hypothèse alternative). Cela équivaut à une régression avec une variable muette, car elle permet à la moyenne de chaque groupe de différer, mais pas à la variance. Par conséquent, les résidus (égaux aux données avec les groupes moyens soustraits) ont la même distribution - c'est-à-dire qu'ils sont normalement distribués avec une moyenne nulle.

Un test t avec des variances inégales n'équivaut pas à une ANOVA à un facteur.

Rob Hyndman
la source
3
Je peux chercher une citation, mais c'est assez facile à tester empiriquement. F d'une ANOVA à deux groupes est exactement égal à t ^ 2 et les valeurs p seront exactement les mêmes. Si vous appliquez une correction, la seule raison pour laquelle cela ne serait pas équivalent en cas de variance inégale. Sinon, ils sont les mêmes.
Brett
3
Le test F est la généralisation du test t. Le test t concerne 2 comparaisons de traitement et le test F, plusieurs traitements. La dérivation se trouve dans Statistical Design de Casella, chapitres 3 et 4. Cependant, comme le fait remarquer le professeur Hyndman, avec des variances inégales, il ne s'agit plus d'un test t. C'est le problème de Fisher Behren. Nous n'utilisons généralement pas la solution de Fisher, mais plutôt le test de Welch ou une approche bayésienne.
suncoolsu
Un test t à deux échantillons avec des variances inégales est en effet égal à une ANOVA à une voie avec deux groupes. Vous vouliez peut-être dire qu'un test t utilisant une correction pour des variances inégales (c.-à-d. Welch) n'est pas la même chose qu'une ANOVA unidirectionnelle qui n'est pas corrigée (mais pourquoi le seraient-ils)?
Brett
20

Le test t est simplement un cas spécial du test F, dans lequel seuls deux groupes sont comparés. Le résultat de l'un ou de l'autre sera exactement le même en termes de p-valeur et il existe également une relation simple entre les statistiques F et t. F = t ^ 2. Les deux tests sont algébriquement équivalents et leurs hypothèses sont les mêmes.

En fait, ces équivalences s’appliquent à toute la classe des ANOVA, tests t et modèles de régression linéaire. Le test t est un cas particulier d’ANOVA. L'ANOVA est un cas particulier de régression. Toutes ces procédures sont incluses dans le modèle linéaire général et partagent les mêmes hypothèses.

  1. Indépendance des observations.
  2. Normalité des résidus = normalité dans chaque groupe dans le cas particulier.
  3. Égalité des variances des résidus = variations égales entre les groupes dans le cas particulier.

Vous pouvez penser à cela comme une normalité dans les données, mais vous vérifiez la normalité dans chaque groupe - ce qui revient en fait à vérifier la normalité dans les résidus lorsque le seul prédicteur du modèle est un indicateur de groupe. De même avec des variances égales.

En passant, R n'a pas de routine distincte pour l'ANOVA. Les fonctions anova de R ne sont que des enveloppes de la fonction lm () - la même chose utilisée pour les modèles de régression linéaire - présentées de manière légèrement différente pour fournir ce que l’on trouve généralement dans un résumé ANOVA plutôt qu’un résumé de régression.

Brett
la source
Serait intéressé de savoir comment adapter les mesures répétées modèles ANOVA utilisant lm.
AndyF
1
Cet article décrit les problèmes de codage des variables catégorielles, l'équivalence des modèles de régression et d'ANOVA, ainsi que le codage de régression pour les mesures répétées. dionysus.psych.wisc.edu/Lit/Topics/Statistics/Contrasts/… Voici la citation ... Wendorf, CA (2004). Notions de base sur le codage par régression multiple: formes communes et cas supplémentaire de contrastes répétés. Comprendre les statistiques 3, 47-57.
Brett
4
@AndyF Non lm(), sauf si vous passez à des modèles mixtes avec le package nlmeor lme4, mais il existe un moyen pratique de gérer des mesures répétées en spécifiant le Errorterme dans aov(), voir plus de détails dans le tutoriel Baron & Li, §6.9, j.mp/ c5ME4u
chl
@AndyF aov()est construit sur la lm()fonction mais inclut un argument supplémentaire, appelé Termes spéciaux , comme Error.
chl
aov () est simplement un wrapper pour lm (). Il fait un peu de contraste en coulisse et emballe le résultat dans le style ANOVA. Tout cela est modélisé par lm (). Dans l'article que j'ai référencé ci-dessus, il vous explique comment configurer le codage pour faire des contrastes répétés dans des modèles de régression, y compris lm ().
Brett le
17

Je suis tout à fait d'accord avec la réponse de Rob, mais permettez-moi de l'exprimer autrement (avec wikipedia):

Hypothèses ANOVA :

  • Indépendance des cas - il s'agit d'une hypothèse du modèle qui simplifie l'analyse statistique.
  • Normalité - les distributions des résidus sont normales.
  • Égalité (ou "homogénéité") des variances, appelée homoscédasticité

Hypothèses t-test :

  • Chacune des deux populations comparées devrait suivre une distribution normale ...
  • ... les deux populations comparées devraient avoir la même variance ...
  • Les données utilisées pour effectuer le test doivent être échantillonnées indépendamment des deux populations comparées.

Par conséquent, je réfuterais la question, car ils ont évidemment les mêmes hypothèses (bien que dans un ordre différent :-)).

Henrik
la source
Voir le commentaire à Rob.
Alexis
@ Alexis Je ne suis pas sûr de comprendre votre vote négatif. Soins à élaborer.
Henrik
L' hypothèse du deuxième test t n'est pas vraie. Le travail original de l'étudiant l'a supposé, mais des "variances inégales" sont une hypothèse assez commune dans le traitement ultérieur du test.
Alexis
5

Un point évident que tout le monde a négligé: avec ANOVA, vous testez à zéro que la moyenne est identique quelles que soient les valeurs de vos variables explicatives. Avec un test T, vous pouvez également tester le cas unilatéral, à savoir que la moyenne est spécifiquement supérieure à une valeur de votre variable explicative à l'autre.

Dsimcha
la source
1
À moins que je ne me trompe, ce n'est PAS une différence. Si vous effectuez une ANOVA sur deux groupes, vous pouvez effectuer un "test unilatéral" comme vous le pouvez dans un test t. Je mets "test unilatéral" entre guillemets car il n'y a en réalité aucune différence dans le "test" entre un "test unilatéral" et un "test bilatéral". La seule différence est la façon dont vous interprétez la signification statistique des valeurs p. Ainsi, les "tests" unilatéraux vs bilatéraux sont exactement les mêmes "tests". Seule la façon d'interpréter correctement les résultats est différente.
Tripartio
-3

Je préférerai utiliser le test t pour comparer deux groupes et utiliserai l'ANOVA pour plus de 2 groupes, pour des raisons particulières. La raison importante étant l'hypothèse d'égale variance.

syed
la source
5
Bienvenue sur le site, @syed. Souhaitez-vous développer votre réponse? Par exemple, à quelles "raisons" faites-vous référence? Notez que les deux le t-test et ANOVA supposent des écarts égaux.
Gay - Rétablir Monica