Contexte
Afin d'analyser les différences dans une variable continue entre différents groupes (donnée par une variable catégorielle), on peut effectuer une ANOVA à sens unique. S'il existe plusieurs variables explicatives (catégorielles), on peut effectuer une ANOVA factorielle. Si l'on veut analyser les différences entre les groupes dans plusieurs variables continues (c'est-à-dire plusieurs variables de réponse), il faut effectuer une ANOVA multivariée (MANOVA).
Question
Je comprends à peine comment on peut effectuer un test de type ANOVA sur plusieurs variables de réponse et, plus important encore, je ne comprends pas quelle pourrait être l'hypothèse nulle. Est l'hypothèse nulle:
- "Pour chaque variable de réponse, les moyennes de tous les groupes sont égales",
ou est-ce
- "Pour au moins une variable de réponse, les moyennes de tous les groupes sont égales",
ou est-ce que est autre chose?
hypothesis-testing
anova
manova
Remi.b
la source
la source
H0
de MANOVA est qu'il n'y a pas de différence dans l'espace multivarié . Le cas multivarié est considérablement plus complexe que le cas univarié car nous devons traiter des covariances, pas seulement des variances. Il existe plusieurs façons de formuler lesH0-H1
hypothèses en MANOVA. Lisez Wikipedia.For each response variable
. Pour moi, cela ressemble à (ou je le lis comme) "les tests sont effectués de manière univariée sur chacun" (puis en quelque sorte combinés).Réponses:
L'hypothèse nulle d'une ANOVA unidirectionnelle est que les moyennes de tous les groupes sont égales:L'hypothèse nulle d'une MANOVA unidirectionnelle est que les moyennes [multivariées] de tous les groupes sont égales:Cela revient à dire que les moyennes sont égales pour chaque variable de réponse, c'est-à-dire que votre première option est correcte .H 0 : μ 1 = μ 2 = . . . = μ k . H 0H0
Dans les deux cas, l'hypothèse alternative est la négation du nul. Dans les deux cas, les hypothèses sont (a) les distributions gaussiennes au sein du groupe et (b) les variances égales (pour l'ANOVA) / les matrices de covariance (pour la MANOVA) entre les groupes.H1
Différence entre MANOVA et ANOVA
Cela peut sembler un peu déroutant: l'hypothèse nulle de MANOVA est exactement la même que la combinaison d'hypothèses nulles pour une collection d'ANOVA univariées, mais en même temps, nous savons que faire MANOVA n'est pas équivalent à faire des ANOVA univariées et puis en quelque sorte " combiner "les résultats (on pourrait trouver différentes façons de combiner). Pourquoi pas?
La réponse est que l'exécution de toutes les ANOVA univariées, même si elle testerait la même hypothèse nulle, aura moins de puissance. Voir ma réponse ici pour une illustration: Comment la MANOVA peut-elle signaler une différence significative lorsqu'aucune des ANOVA univariées n'atteint la signification? La méthode naïve de «combinaison» (rejeter le null global si au moins une ANOVA rejette le null) entraînerait également une énorme inflation du taux d'erreur de type I; mais même si l'on choisit une façon intelligente de "combiner" pour maintenir le taux d'erreur correct, on perdrait en puissance.
Fonctionnement des tests
ANOVA décompose le total de somme de carrés en somme des carrés entre les groupes et la somme des carrés intra-groupe , de sorte que . Il calcule alors le rapport . Dans l'hypothèse nulle, ce ratio devrait être petit (environ ); on peut déterminer la distribution exacte de ce rapport attendue sous l'hypothèse nulle (elle dépendra de et du nombre de groupes). La comparaison de la valeur observée avec cette distribution donne une valeur p.T B W T=B+W B/W 1 n B/W
MANOVA décompose la matrice dispersion totale dans la matrice dispersion entre les groupes et la matrice de dispersion intra-groupe , de sorte que . Il calcule alors la matrice . Sous l'hypothèse nulle, cette matrice devrait être "petite" (autour de ); mais comment quantifier sa "petite" taille? MANOVA examine les valeurs propres de cette matrice (elles sont toutes positives). Encore une fois, dans l'hypothèse nulle, ces valeurs propres devraient être "petites" (tout autour deT B W T=B+W W−1B I λi 1 ). Mais pour calculer une valeur de p, nous avons besoin d'un nombre (appelé "statistique") afin de pouvoir le comparer avec sa distribution attendue sous le nul. Il y a plusieurs façons de procéder: prendre la somme de toutes les valeurs propres ; prendre la valeur propre maximale , etc. Dans chaque cas, ce nombre est comparé à la distribution de cette quantité attendue sous la valeur nulle, résultant en une valeur p.∑λi max{λi}
Différents choix de la statistique de test conduisent à des valeurs de p légèrement différentes, mais il est important de réaliser que, dans chaque cas, la même hypothèse nulle est testée.
la source
SSdifference/SSerror
scalaire. En MANOVA, l'effet multivarié estSSCPerror^(-1)SSCPdifference
matriciel (total des covariances et intra-groupes pris en compte). Mais comme il contient plusieurs valeurs propres qui pourraient être "combinées" non pas d'une manière unique dans une statistique de test, plusieurs hypothèses alternatives existent. Plus de puissance - plus de complexité théorique.C'est le premier.
Cependant, la façon dont il le fait n'est pas littéralement de comparer tour à tour les moyennes de chacune des variables d'origine. Au lieu de cela, les variables de réponse sont transformées linéairement d'une manière très similaire à l' analyse des composantes principales . (Il existe ici un excellent fil conducteur sur l'ACP: donner un sens à l'analyse des composants principaux, aux vecteurs propres et aux valeurs propres .) La différence est que l'ACP oriente vos axes de manière à s'aligner sur les directions de variation maximale, tandis que MANOVA fait pivoter vos axes dans les directions qui maximiser la séparation de vos groupes.
Pour être clair cependant, aucun des tests associés à une MANOVA ne teste tous les moyens l'un après l'autre dans un sens direct, soit avec les moyens dans l'espace d'origine ou dans l'espace transformé. Il existe plusieurs statistiques de test différentes qui fonctionnent chacune de manière légèrement différente, néanmoins elles ont tendance à fonctionner sur les valeurs propres de la décomposition qui transforme l'espace. Mais en ce qui concerne la nature de l'hypothèse nulle, c'est que tous les moyens de tous les groupes sont les mêmes sur chaque variable de réponse, non pas qu'ils peuvent différer sur certaines variables mais sont les mêmes sur au moins une.
la source