L’ANOVA équivaut à une régression linéaire avec l’utilisation de variables nominales appropriées. Les conclusions restent les mêmes, que vous utilisiez une ANOVA ou une régression linéaire.
Compte tenu de leur équivalence, y a-t-il une raison pour laquelle l'ANOVA est utilisée au lieu de la régression linéaire?
Remarque: je suis particulièrement intéressé par les raisons techniques de l’utilisation de l’ANOVA au lieu de la régression linéaire.
Modifier
Voici un exemple utilisant une ANOVA à un facteur. Supposons que vous vouliez savoir si la taille moyenne des hommes et des femmes est la même. Pour tester votre hypothèse, vous devez collecter des données sur un échantillon aléatoire d'hommes et de femmes (soit 30 chacun) et effectuer l'analyse ANOVA (c'est-à-dire la somme des carrés pour le genre et l'erreur) afin de déterminer si un effet existe.
Vous pouvez également utiliser la régression linéaire pour vérifier ceci:
Définissez: si le répondant est un homme et sinon. où:
Ensuite, testez si est un test équivalent pour votre hypothèse.
la source
Réponses:
En tant qu'économiste, l'analyse de variance (ANOVA) est enseignée et généralement comprise en relation avec la régression linéaire (par exemple, dans A Course in Econometrics d' Arthur Goldberger ). Les économistes / économétriciens considèrent généralement l'ANOVA comme étant sans intérêt et préfèrent passer directement aux modèles de régression. Du point de vue des modèles linéaires (voire linéaires généralisés), ANOVA attribue des coefficients en lots, chaque lot correspondant à une "source de variation" dans la terminologie ANOVA.
Généralement, vous pouvez reproduire les inférences que vous obtiendriez de l'ANOVA en utilisant la régression mais pas toujours la régression OLS. Des modèles multiniveaux sont nécessaires pour analyser les structures de données hiérarchiques telles que les "conceptions en parcelles divisées", dans lesquelles les effets entre groupes sont comparés aux erreurs au niveau du groupe, et les effets intra-groupe sont comparés aux erreurs au niveau des données. L'article de Gelman [1] décrit ce problème de manière très détaillée et soutient efficacement que l'ANOVA est un outil statistique important qui doit encore être enseigné dans son propre intérêt.
Gelman soutient en particulier que l’Anova est un moyen de comprendre et de structurer des modèles multiniveaux. Par conséquent, l'ANOVA n'est pas une alternative à la régression mais un outil permettant de résumer des inférences complexes de grande dimension et d'analyser des données exploratoires.
Gelman est un statisticien très respecté et son point de vue devrait être valorisé. Cependant, presque tous les travaux empiriques que je faisais seraient tout aussi bien servis par la régression linéaire et je tombe donc fermement dans le camp de le considérer comme un peu inutile. Certaines disciplines avec des plans d'étude complexes (par exemple la psychologie) peuvent trouver l'ANOVA utile.
[1] Gelman, A. (2005). Analyse de la variance: pourquoi c'est plus important que jamais (avec discussion). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048
la source
Je pense que le deuxième paragraphe de Graham est au cœur de la question. Je suppose que ce n’est pas tant technique qu’historique, probablement à cause de l’influence de " Méthodes statistiques pour les chercheurs ", et de la facilité à enseigner / appliquer l’outil aux non-statisticiens dans l’analyse expérimentale impliquant des facteurs discrets, plutôt que de se plonger dans la construction de modèles et outils associés. En statistique, l'ANOVA est généralement enseignée comme un cas particulier de régression. (Je pense que cela revient à expliquer pourquoi la biostatistique est remplie d'une myriade de "tests" éponymes, plutôt que de mettre l'accent sur la construction de modèles.)
la source
Je dirais que certains d’entre vous utilisent le terme régression alors que vous devriez utiliser un modèle linéaire général. Je pense à la régression en tant que mécanisme impliquant des covariables continues. Lorsque des covariables continues sont combinées à des variables nominales, il convient d’appeler l’analyse de la covariance. Si seules des variables nominales sont utilisées, nous appelons cette forme spéciale de GLM l’analyse de la variance. Je pense que l’analyse de la variance a une deuxième signification distincte en tant que procédure pour tester des coefficients significatifs dans une métrique en utilisant la décomposition de la variance en composantes du terme de modèle et en composante du terme d’erreur.
la source
ANOVA peut être utilisé avec des variables explicatives catégoriques (facteurs) prenant plus de 2 valeurs (niveaux), et fournit un test de base indiquant que la réponse moyenne est la même pour chaque valeur. Cela évite le problème de régression lors de la réalisation de plusieurs tests t par paires entre ces niveaux:
Il est préférable d’utiliser des contrastes pour différentes combinaisons de niveaux de facteurs que vous souhaitez tester.
la source
ANOVA: vous testez s'il existe une différence significative entre les moyennes de la population en supposant que vous comparez plus de deux moyennes de la population, puis vous utiliserez un test F.
Dans l'analyse de régression, vous construisez un modèle entre des variables indépendantes et une variable dépendante. Si vous avez une variable indépendante à quatre niveaux, vous pouvez utiliser trois variables nominales et exécuter un modèle de régression. Le test F du modèle de régression utilisé pour tester la signification du modèle de régression est le même que le F obtenu lorsque vous testez la différence entre les moyennes de population. Si vous exécutez une régression pas à pas, certaines des variables factices risquent d’être supprimées du modèle et votre valeur F différera de celle obtenue lorsque vous effectuez un test ANOVA.
la source