ANOVA vs régression linéaire multiple? Pourquoi l'ANOVA est-elle si couramment utilisée dans les études expérimentales?

24

ANOVA vs régression linéaire multiple?

Je comprends que ces deux méthodes semblent utiliser le même modèle statistique. Cependant, dans quelles circonstances dois-je utiliser quelle méthode?

Quels sont les avantages et les inconvénients de ces méthodes en comparaison?

Pourquoi l'ANOVA est-elle si couramment utilisée dans les études expérimentales et je ne trouve presque jamais d'étude de régression?

florian
la source
5
Étant donné que les deux utilisent le même modèle, peu importe celui que vous utilisez.
Peter Flom - Réintègre Monica
3
Je l'appelle régression lorsque je compare des pentes, c'est-à-dire des variables prédictives continues, et ANOVA lorsque je compare des moyennes, c'est-à-dire des variables prédictives catégoriques. La raison pour laquelle vous trouvez plus d'ANOVA dans les études expérimentales est qu'elles comparent principalement les moyens ou les niveaux de traitements, par exemple en comparant différents engrais sur la croissance des plantes. Mais comme @PeterFlom l'a déjà dit, les deux utilisent le même modèle et peu importe celui que vous utilisez - la seule chose qui semble différente est la sortie qu'ils vous donnent - et selon votre question, vous voulez soit la sortie de "régression" soit la Sortie "ANOVA".
Stefan
2
Hmm mais vous pouvez également inclure des prédicteurs catégoriels dans une régression via un codage fictif?
florian
Oui bien sûr!
Stefan
4
Votre question est très valable et a été abordée plusieurs fois sous différents angles sur le CV. La nature en double de ces tests est déroutante. Il est facile de dire ANOVA = régression linéaire, et je pense que tous les commentaires formulés jusqu'à présent sont utiles et précis, mais la réalité est un peu plus nuancée et difficile à comprendre, surtout si vous incluez ANCOVA dans le cadre de l'analyse des variance. Vérifiez les autres entrées, comme celle-ci . Je donne +1 à votre question, bien qu'il s'agisse à proprement parler d'un doublon. Pouvez-vous donner un ex.?
Antoni Parellada

Réponses:

22

Il serait intéressant d'apprécier que la divergence concerne le type de variables , et plus particulièrement les types de variables explicatives . Dans l'ANOVA typique, nous avons une variable catégorielle avec différents groupes et nous essayons de déterminer si la mesure d'une variable continue diffère entre les groupes. D'un autre côté, l'OLS a tendance à être perçue comme principalement une tentative d'évaluer la relation entre une régression continue ou une variable de réponse et un ou plusieurs régresseurs ou variables explicatives . En ce sens, la régression peut être considérée comme une technique différente, se prêtant à la prédiction de valeurs basées sur une droite de régression.

Cependant , cette différence ne résiste pas à l'extension de l'ANOVA au reste de l'analyse de la soupe à l'alphabet variance (ANCOVA, MANOVA, MANCOVA); ou l'inclusion de variables codées fictivement dans la régression OLS. Je ne suis pas clair sur les points de repère historiques spécifiques, mais c'est comme si les deux techniques avaient développé des adaptations parallèles pour s'attaquer à des modèles de plus en plus complexes.

Par exemple, nous pouvons voir que les différences entre ANCOVA et OLS avec des variables factices (ou catégorielles) (dans les deux cas avec des interactions) sont tout au plus cosmétiques. Veuillez excuser mon départ des limites du titre de votre question concernant la régression linéaire multiple.

Dans les deux cas, le modèle est essentiellement identique au point que dans R la lmfonction est utilisée pour réaliser l'ANCOVA . Cependant, elle peut être présentée comme différente en ce qui concerne l'inclusion d'une intersection correspondant au premier niveau (ou groupe) de la variable facteur (ou catégorielle) dans le modèle de régression.

Dans un modèle équilibré ( groupes taille égale , ) et une seule covariable (pour simplifier la présentation de la matrice), la matrice du modèle dans ANCOVA peut être rencontrée comme une variation de:jen1,2,je

X=[1n100Xn10001n200Xn20001n300Xn3]

pour groupes de la variable facteur, exprimés en matrices de blocs.3

Cela correspond au modèle linéaire:

y=αje+β1Xn1+β2Xn2+β3Xn3+ϵje
avec équivalent aux différents groupes dans une ANOVA modèle, tandis que les différents sont les pentes de la covariable pour chacun des groupes.αjeβ

La présentation du même modèle dans le champ de régression, et spécifiquement dans R, considère une intersection globale, correspondant à l'un des groupes, et la matrice du modèle pourrait être présentée comme:

X=[00000J3n,11n20X0Xn2001n300Xn3]

de l'équation OLS:

y=β0+μje+β1Xn1+β2Xn2+β3Xn3+ϵje
.

Dans ce modèle, l'ordonnée à l'origine globale est modifiée à chaque niveau de groupe par , et les groupes ont également des pentes différentes.μ iβ0μje

Comme vous pouvez le voir sur les matrices du modèle, la présentation dément l'identité réelle entre la régression et l'analyse de la variance.

Je aime genre de vérifier avec quelques lignes de code et mes données favorites définies mtcarsdans R . J'utilise lmpour ANCOVA selon le document de Ben Bolker disponible ici .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

En ce qui concerne la partie de la question sur la méthode à utiliser (régression avec R!), Vous pouvez trouver amusant ce commentaire en ligne que j'ai rencontré en écrivant ce post.

Antoni Parellada
la source
1
Merci pour ce commentaire extrêmement utile ... Citant le commentaire que vous avez lié: "Utilisez la régression lorsque vous n'êtes pas sûr si les variables catégorielles indépendantes ont un effet. Utilisez l'ANOVA lorsque vous voulez voir si des catégories particulières ont des effets différents. . " Alors, comment se fait-il que de nombreuses études expérimentales utilisent l'ANOVA? D'après ma compréhension, la régression serait le bon choix. Les chercheurs sont-ils trop convaincus que les effets sont là et ne cherchent-ils que des moyens de les "prouver" statistiquement?
florian
Pourriez-vous fournir un exemple pratique où l'on devrait utiliser aov sur la régression et expliquer pourquoi? Merci pour votre temps.Je suis également psychologue de formation et je ne vois pas les avantages d'Anova, sauf qu'il est probablement publié plus facilement.
florian
Tu as de la chance? Je serais très intéressé par une heuristique plus concrète pour favoriser l'un ou l'autre type de procédure, alors merci de partager si vous trouvez une réponse.
Antoni Parellada
Malheureusement, aucune nouvelle découverte sur mon parcours dans les statistiques jusqu'à présent ... ne vous tiendra au courant, plus de commentaires sont appréciés.
florian
J'ai du mal à comprendre la matrice du modèle OLS et l'équation correspondante ici. Je ne comprends pas d'où vient la colonne zéro (5ème colonne de la matrice). De plus, je pense que l'équation devrait correspondre aux colonnes (ie mu_i ne devrait être que pour deux groupes et la variable x devrait être incluse sans interaction avec un mannequin de groupe). Des éclaircissements supplémentaires sont très appréciés!
Nick
4

Les régressions ANOVA et OLS sont mathématiquement identiques dans les cas où vos prédicteurs sont catégoriques (en termes d'inférences que vous tirez de la statistique de test). Autrement dit, l'ANOVA est un cas particulier de régression. Il n'y a rien qu'une ANOVA puisse vous dire que la régression ne peut pas dériver d'elle-même. L'inverse, cependant, n'est pas vrai. L'ANOVA ne peut pas être utilisée pour l'analyse avec des variables continues. À ce titre, l'ANOVA pourrait être classée comme la technique la plus limitée. Cependant, la régression n'est pas toujours aussi pratique pour l'analyste moins sophistiqué. Par exemple, la plupart des scripts ANOVA génèrent automatiquement des termes d'interaction, comme pour la régression, vous devez souvent calculer manuellement ces termes vous-même à l'aide du logiciel. L'utilisation répandue de l'ANOVA est en partie une relique de l'analyse statistique avant l'utilisation de logiciels statistiques plus puissants, et, à mon avis, une technique plus facile à enseigner aux étudiants inexpérimentés dont le but est une compréhension de niveau relativement superficiel qui leur permettra d'analyser les données avec un ensemble statistique de base. Essayez-le un jour ... Examinez la statistique t qu'une régression de base crache, mettez-la au carré, puis comparez-la au rapport F de l'ANOVA sur les mêmes données. Identique!

Michael Melville
la source
Ce n'est pas vrai.
Michael R. Chernick
4
@MichaelChernick Pourriez-vous nous dire quelles sont, parmi les nombreuses affirmations formulées dans cette réponse, celles qui sont fausses? Bien qu'il prenne des positions extrêmes, il est difficile d'en trouver de fausses.
whuber
Je me suis opposé à l'affirmation selon laquelle la régression ANOVA et OLS sont mathématiquement identiques. Je reconnais que l'ANOVA peut être considérée comme une régression à une forme du modèle linéaire général qui peut être formulée comme une régression.
Michael R. Chernick
Dans le cas OLS, comment ne sont-ils pas identiques à part la sortie? Le modèle sous-jacent est le même, les résidus sont les mêmes, les valeurs de p qu'ils produisent sont les mêmes. C'est la sortie qui diffère.
dbwilson
2

Le principal avantage de l'ANOVA par rapport à la régression est, à mon avis, dans la sortie. Si vous êtes intéressé par la signification statistique de la variable catégorielle (facteur) en tant que bloc, l'ANOVA fournit ce test pour vous. Avec la régression, la variable catégorielle est représentée par 2 variables muettes ou plus, selon le nombre de catégories, et donc vous avez 2 tests statistiques ou plus, chacun comparant la moyenne de la catégorie particulière avec la moyenne de la catégorie nulle (ou la moyenne globale, selon la méthode de codage fictive). Aucun de ces éléments ne peut être intéressant. Ainsi, vous devez effectuer une analyse post-estimation (essentiellement ANOVA) pour obtenir le test global du facteur qui vous intéresse.

dbwilson
la source
En fait, ce n'est pas vrai. Si vous effectuez un test de rapport de vraisemblance, vous testez l'ensemble du facteur catégoriel en tant que bloc dans un modèle de régression.
Dan Chaltiel
Votre commentaire ne contredit pas ce que j'ai dit. Le test du rapport de vraisemblance que vous mentionnez serait une analyse post-estimation du facteur, comparant le modèle avec le facteur au modèle sans.
dbwilson
Si vous effectuez une ANOVA, vous obtiendrez une valeur p pour "la variable catégorielle (facteur) en tant que bloc", tout comme la régression avec LRT. La régression peut vous fournir plusieurs versions bêta mais n'effectuerait pas plus de tests que l'ANOVA, donc votre affirmation "donc vous avez 2 tests statistiques ou plus" me semble fausse. Pourquoi le TLR serait-il plus "post-estimation" que l'ANOVA?
Dan Chaltiel
1

Le principal avantage de la régression linéaire est qu'elle résiste à la violation de l'homogénéité de la variance lorsque les tailles d'échantillon entre les groupes sont inégales. Un autre est qu'il facilite l'inclusion de plusieurs covariables (bien que cela puisse également être facilement réalisé via ANCOVA lorsque vous êtes intéressé à inclure une seule covariable). La régression s'est généralisée au cours des années soixante-dix avec l'avènement des progrès de la puissance de calcul. Vous pouvez également trouver la régression plus pratique si vous êtes particulièrement intéressé à examiner les différences entre des niveaux particuliers d'une variable catégorielle lorsqu'il y a plus de deux niveaux présents (tant que vous configurez la variable fictive dans la régression de sorte que l'un de ces deux niveaux représente le groupe de référence).

David B
la source
1
Comme indiqué dans l'autre réponse, une ANOVA est une régression multiple.
gung - Rétablir Monica
Merci, quels sont donc les avantages d'Anova? Pourquoi utiliseriez-vous un Anova / Ancova sur un modèle de régression?
florian
J'ai une question ici. Pourquoi avez-vous dénoté «une seule covariable» en expliquant l'utilité de l'ANCOVA? Est-ce parce que vous ne pouvez inclure qu'une seule covariable dans ANCOVA?
Kevin Kang