ANOVA vs régression linéaire multiple?
Je comprends que ces deux méthodes semblent utiliser le même modèle statistique. Cependant, dans quelles circonstances dois-je utiliser quelle méthode?
Quels sont les avantages et les inconvénients de ces méthodes en comparaison?
Pourquoi l'ANOVA est-elle si couramment utilisée dans les études expérimentales et je ne trouve presque jamais d'étude de régression?
Réponses:
Il serait intéressant d'apprécier que la divergence concerne le type de variables , et plus particulièrement les types de variables explicatives . Dans l'ANOVA typique, nous avons une variable catégorielle avec différents groupes et nous essayons de déterminer si la mesure d'une variable continue diffère entre les groupes. D'un autre côté, l'OLS a tendance à être perçue comme principalement une tentative d'évaluer la relation entre une régression continue ou une variable de réponse et un ou plusieurs régresseurs ou variables explicatives . En ce sens, la régression peut être considérée comme une technique différente, se prêtant à la prédiction de valeurs basées sur une droite de régression.
Cependant , cette différence ne résiste pas à l'extension de l'ANOVA au reste de l'analyse de la soupe à l'alphabet variance (ANCOVA, MANOVA, MANCOVA); ou l'inclusion de variables codées fictivement dans la régression OLS. Je ne suis pas clair sur les points de repère historiques spécifiques, mais c'est comme si les deux techniques avaient développé des adaptations parallèles pour s'attaquer à des modèles de plus en plus complexes.
Par exemple, nous pouvons voir que les différences entre ANCOVA et OLS avec des variables factices (ou catégorielles) (dans les deux cas avec des interactions) sont tout au plus cosmétiques. Veuillez excuser mon départ des limites du titre de votre question concernant la régression linéaire multiple.
Dans les deux cas, le modèle est essentiellement identique au point que dans R la
lm
fonction est utilisée pour réaliser l'ANCOVA . Cependant, elle peut être présentée comme différente en ce qui concerne l'inclusion d'une intersection correspondant au premier niveau (ou groupe) de la variable facteur (ou catégorielle) dans le modèle de régression.Dans un modèle équilibré ( groupes taille égale , ) et une seule covariable (pour simplifier la présentation de la matrice), la matrice du modèle dans ANCOVA peut être rencontrée comme une variation de:je n1 , 2 , ⋯je
pour groupes de la variable facteur, exprimés en matrices de blocs.3
Cela correspond au modèle linéaire:
La présentation du même modèle dans le champ de régression, et spécifiquement dans R, considère une intersection globale, correspondant à l'un des groupes, et la matrice du modèle pourrait être présentée comme:
de l'équation OLS:
Dans ce modèle, l'ordonnée à l'origine globale est modifiée à chaque niveau de groupe par , et les groupes ont également des pentes différentes.μ iβ0 μje
Comme vous pouvez le voir sur les matrices du modèle, la présentation dément l'identité réelle entre la régression et l'analyse de la variance.
Je aime genre de vérifier avec quelques lignes de code et mes données favorites définies
mtcars
dans R . J'utiliselm
pour ANCOVA selon le document de Ben Bolker disponible ici .En ce qui concerne la partie de la question sur la méthode à utiliser (régression avec R!), Vous pouvez trouver amusant ce commentaire en ligne que j'ai rencontré en écrivant ce post.
la source
Les régressions ANOVA et OLS sont mathématiquement identiques dans les cas où vos prédicteurs sont catégoriques (en termes d'inférences que vous tirez de la statistique de test). Autrement dit, l'ANOVA est un cas particulier de régression. Il n'y a rien qu'une ANOVA puisse vous dire que la régression ne peut pas dériver d'elle-même. L'inverse, cependant, n'est pas vrai. L'ANOVA ne peut pas être utilisée pour l'analyse avec des variables continues. À ce titre, l'ANOVA pourrait être classée comme la technique la plus limitée. Cependant, la régression n'est pas toujours aussi pratique pour l'analyste moins sophistiqué. Par exemple, la plupart des scripts ANOVA génèrent automatiquement des termes d'interaction, comme pour la régression, vous devez souvent calculer manuellement ces termes vous-même à l'aide du logiciel. L'utilisation répandue de l'ANOVA est en partie une relique de l'analyse statistique avant l'utilisation de logiciels statistiques plus puissants, et, à mon avis, une technique plus facile à enseigner aux étudiants inexpérimentés dont le but est une compréhension de niveau relativement superficiel qui leur permettra d'analyser les données avec un ensemble statistique de base. Essayez-le un jour ... Examinez la statistique t qu'une régression de base crache, mettez-la au carré, puis comparez-la au rapport F de l'ANOVA sur les mêmes données. Identique!
la source
Le principal avantage de l'ANOVA par rapport à la régression est, à mon avis, dans la sortie. Si vous êtes intéressé par la signification statistique de la variable catégorielle (facteur) en tant que bloc, l'ANOVA fournit ce test pour vous. Avec la régression, la variable catégorielle est représentée par 2 variables muettes ou plus, selon le nombre de catégories, et donc vous avez 2 tests statistiques ou plus, chacun comparant la moyenne de la catégorie particulière avec la moyenne de la catégorie nulle (ou la moyenne globale, selon la méthode de codage fictive). Aucun de ces éléments ne peut être intéressant. Ainsi, vous devez effectuer une analyse post-estimation (essentiellement ANOVA) pour obtenir le test global du facteur qui vous intéresse.
la source
Le principal avantage de la régression linéaire est qu'elle résiste à la violation de l'homogénéité de la variance lorsque les tailles d'échantillon entre les groupes sont inégales. Un autre est qu'il facilite l'inclusion de plusieurs covariables (bien que cela puisse également être facilement réalisé via ANCOVA lorsque vous êtes intéressé à inclure une seule covariable). La régression s'est généralisée au cours des années soixante-dix avec l'avènement des progrès de la puissance de calcul. Vous pouvez également trouver la régression plus pratique si vous êtes particulièrement intéressé à examiner les différences entre des niveaux particuliers d'une variable catégorielle lorsqu'il y a plus de deux niveaux présents (tant que vous configurez la variable fictive dans la régression de sorte que l'un de ces deux niveaux représente le groupe de référence).
la source