J'ai toujours eu l'impression que la régression n'est qu'une forme plus générale d'ANOVA et que les résultats seraient identiques. Récemment, cependant, j'ai effectué une régression et une ANOVA sur les mêmes données et les résultats diffèrent considérablement. Autrement dit, dans le modèle de régression, les effets principaux et l'interaction sont significatifs, tandis que dans l'ANOVA, un effet principal n'est pas significatif. Je m'attends à ce que cela ait quelque chose à voir avec l'interaction, mais je ne vois pas clairement ce qui est différent dans ces deux façons de modéliser la même question. Si c'est important, un prédicteur est catégorique et l'autre est continu, comme indiqué dans la simulation ci-dessous.
Voici un exemple de l'apparence de mes données et des analyses que j'exécute, mais sans que les mêmes valeurs de p ou effets soient significatifs dans les résultats (mes résultats réels sont décrits ci-dessus):
group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)
summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
la source
group
est un vecteur numérique, est-ce exprès? Normalement, les facteurs de regroupement doivent avoir une classefactor
, de sorte que la transformation en contrastes peut être gérée automatiquement par des fonctions commelm()
. Cela deviendra apparent une fois que vous aurez plus de deux groupes, ou utilisez un codage autre que 0/1 pour votregroup
variable.Réponses:
La
summary
fonction appelle différentes méthodes en fonction de la classe de l'objet. La différence n'est pas dans leaov
vslm
, mais dans les informations présentées sur les modèles. Par exemple, si vous avez utiliséanova(mod1)
et à laanova(mod2)
place, vous devriez obtenir les mêmes résultats.Comme le dit @Glen, la clé est de savoir si les tests rapportés sont basés sur des sommes de carrés de type 1 ou de type 3. Celles-ci diffèrent lorsque la corrélation entre vos variables explicatives n'est pas exactement de 0. Lorsqu'elles sont corrélées, certains SS sont uniques à un prédicteur et certains à l'autre, mais certains SS peuvent être attribués à l'un ou aux deux. ( Vous pouvez visualiser cela en imaginant le symbole MasterCard--il y a une petite région de chevauchement au centre.) Il n'y a pas de réponse unique dans cette situation, et malheureusement, c'est la norme pour les données non expérimentales. Une approche consiste pour l'analyste à utiliser son jugement et à affecter le SS qui se chevauchent à l'une des variables. Cette variable entre en premier dans le modèle. L'autre variable entre dans le deuxième modèle et obtient le SS qui ressemble à un cookie avec une bouchée retirée. Son effet peut être testé par ce qu'on appelle parfoisR2 changer ou F changer. Cette approche utilise le SS de type 1. Alternativement, vous pouvez le faire deux fois avec chaque entrée en premier et signaler le test de changement F pour les deux prédicteurs. De cette façon, aucune variable n'obtient le SS en raison du chevauchement. Cette approche utilise des SS de type 3. (Je dois également vous dire que cette dernière approche est peu respectée.)
En suivant la suggestion de @BrettMagill dans le commentaire ci-dessous, je peux essayer de rendre cela un peu plus clair. (Notez que, dans mon exemple, j'utilise seulement 2 prédicteurs et aucune interaction, mais cette idée peut être étendue pour inclure ce que vous voulez.)
Type 1: SS (A) et SS (B | A)
Type 3: SS (A | B) et SS (B | A)
la source
Les résultats de la sortie aov vous donnent des probabilités basées sur la somme des carrés de type 1. C'est pourquoi le résultat de l'interaction est le même et les principaux effets diffèrent.
Si vous utilisez des probabilités basées sur la somme des carrés de type 3, elles correspondront aux résultats de la régression linéaire.
la source
Anova(..., type=3)
ne pas vous donner bon type III SS, à moins que vous passez aussi des contrastes de traitement (par défaut en R) à l' effet codant pour des facteurs désordonnées (options(contrasts=c("contr.sum", "contr.poly"))
) ou d'autres codes de contraste somme à zéro (par exemple, Helmert). Cela deviendra apparent une fois que vous avez des tailles de cellules déséquilibrées et plus de deux groupes et est également mentionné dans la page d'aide deAnova()
.La principale différence entre la régression linéaire et l'ANOVA est que, dans l'ANOVA, les variables prédictives sont discrètes (c'est-à-dire qu'elles ont des niveaux différents). Alors qu'en régression linéaire, les variables prédictives sont continues.
la source