Ai-je raison de comprendre que l'ordre dans lequel les variables sont spécifiées dans une ANOVA multifactorielle fait une différence mais que l'ordre n'a pas d'importance lors d'une régression linéaire multiple?
Donc, en supposant un résultat tel que la perte de sang mesurée y
et deux variables catégorielles
- méthode d'adénoïdectomie
a
, - méthode d'amygdalectomie
b
.
Le modèle y~a+b
est différent du modèle y~b+a
(ou du moins mon implémentation en R semble l'indiquer).
Ai-je raison de comprendre que le terme ici est que l'ANOVA est un modèle hiérarchique puisqu'il attribue d'abord autant de variance qu'il le peut au premier facteur avant d'essayer d'attribuer la variance résiduelle au deuxième facteur?
Dans l'exemple ci-dessus, la hiérarchie est logique parce que je fais toujours l'adénoïdectomie avant de faire l'amygdalectomie, mais que se passerait-il si l'on avait deux variables sans ordre inhérent?
Réponses:
Cette question est évidemment venue d'une étude avec une conception bidirectionnelle déséquilibrée, analysée en R avec la
aov()
fonction; cette page fournit un exemple plus récent et détaillé de ce problème.La réponse générale à cette question, comme à tant d'autres, est: "Cela dépend". Ici, cela dépend si le design est équilibré et, sinon, quelle saveur d'ANOVA est choisie.
Tout d'abord, cela dépend si le design est équilibré. Dans le meilleur des mondes possibles, avec un nombre égal de cas dans toutes les cellules d'un plan factoriel, il n'y aurait aucune différence en raison de l'ordre de saisie des facteurs dans le modèle, quelle que soit la manière dont l'ANOVA est effectuée. * Les cas en question , évidemment à partir d'une cohorte clinique rétrospective, semblent provenir d'un monde réel où un tel équilibre n'a pas été trouvé. Donc, l'ordre pourrait avoir de l' importance.
Deuxièmement, cela dépend de la façon dont l'ANOVA est effectuée, ce qui est quelque peu controversé. Les types d'ANOVA pour les conceptions non équilibrées diffèrent dans l'ordre d'évaluation des principaux effets et interactions. L'évaluation des interactions est fondamentale pour l'ANOVA bidirectionnelle et d'ordre supérieur, il y a donc des différends sur la meilleure façon de procéder. Voir cette page de validation croisée pour une explication et une discussion. Voir les détails et l'avertissement pour la fonction
Anova()
(avec un "A" majuscule) dans le manuel ducar
package pour une vue différente.L'ordre des facteurs ne importe dans les conceptions asymétriques sous la valeur par défaut
aov()
dans R, qui utilise ce que l' on appelle type I tests. Il s'agit d'attributions séquentielles de variance à des facteurs dans l'ordre d'entrée dans le modèle, comme l'envisageait la présente question. L'ordre n'a pas d' importance avec les tests de type II ou de type III fournis par laAnova()
fonction dans lecar
package en R. Ces alternatives, cependant, ont leurs propres inconvénients potentiels notés dans les liens ci-dessus.Enfin, considérez la relation avec la régression linéaire multiple comme
lm()
dans R, qui est essentiellement le même type de modèle si vous incluez des termes d'interaction. L'ordre d'entrée des variables danslm()
n'a pas d'importance en termes de coefficients de régression et de valeurs de p rapportés parsummary(lm())
, dans lesquels un facteur catégoriel de niveau k est codé comme (k-1) variables fictives binaires et un coefficient de régression est rapporté pour chaque mannequin .Il est cependant possible d'envelopper la
lm()
sortie avecanova()
("a" en minuscules dustats
package R ) ouAnova()
de résumer l'influence de chaque facteur sur tous ses niveaux, comme on peut s'y attendre en ANOVA classique. Ensuite, l'ordre des facteurs importera avecanova()
comme pouraov()
, et n'aura pas d'importance avecAnova()
. De même, les litiges sur le type d'ANOVA à utiliser reviendraient. Il n'est donc pas sûr de supposer l'indépendance de l'ordre de la saisie des facteurs avec toutes les utilisations en aval deslm()
modèles.* Avoir un nombre égal d'observations dans toutes les cellules est suffisant mais, si je comprends bien, pas nécessaire pour que l'ordre des facteurs ne soit pas pertinent. Des types d'équilibre moins exigeants peuvent permettre l'indépendance de l'ordre.
la source
Le terme modèle hiérarchique fait référence à la structure entre les facteurs. Par exemple, une étude multicentrique est hiérarchique: vous avez les patients imbriqués dans les hôpitaux qui les traitent. Chaque hôpital traite les patients avec un placebo et du verum, mais la réception de chacun d'eux à l'hôpital A ou B est légèrement différente en raison d'un effet commun de l'hôpital régissant sur tous leurs patients (peut même être un effet d'interaction avec l'agent expérimental). C'est ce qu'on appelle l'effet hiérarchique.
Maintenant, vos méthodes d'ectomie peuvent être hiérarchiques: est-il plausible qu'une certaine méthode d'amygdalectomie soit légèrement différente (en soi, pas encore dans l'effet, car c'est ce que vous allez estimer et tester) en fonction de la méthode d'adénoïdectomie utilisée auparavant sur le même patient? Si oui, vous devez le spécifier dans votre modèle.
Votre observation selon laquelle y ~ a + b peut être différent de y ~ b + a indique qu'il y a quelque chose qui ne va pas. Les effets additifs font la navette, il ne devrait donc pas y avoir de différence (à part de petites différences numériques). Il n'est ni plausible ni souhaité que l'effet des méthodes de chirurgie puisse dépendre de l'ordre dans lequel le statisticien spécifie plus tard les effets. Vous avez donc probablement choisi la mauvaise approche pour alimenter
R
les données.la source
aov
commande dans R utilise SS de type I par défaut. Lorsque j'ai offert la prime, je m'attendais à obtenir une réponse expliquant les problèmes derrière la conception anova déséquilibrée, les différences entre les SS de type I / II / III et certains commentaires sur la régression linéaire ou non des mêmes problèmes.aov
chose quelm
, et il serait utile d'avoir une réponse à cette question du type indiqué par @amoeba dans le commentaire du 12 mai 14:31. .