Pourquoi l'ANOVA est-elle enseignée / utilisée comme s'il s'agissait d'une méthodologie de recherche différente de la régression linéaire?

91

L’ANOVA équivaut à une régression linéaire avec l’utilisation de variables nominales appropriées. Les conclusions restent les mêmes, que vous utilisiez une ANOVA ou une régression linéaire.

Compte tenu de leur équivalence, y a-t-il une raison pour laquelle l'ANOVA est utilisée au lieu de la régression linéaire?

Remarque: je suis particulièrement intéressé par les raisons techniques de l’utilisation de l’ANOVA au lieu de la régression linéaire.

Modifier

Voici un exemple utilisant une ANOVA à un facteur. Supposons que vous vouliez savoir si la taille moyenne des hommes et des femmes est la même. Pour tester votre hypothèse, vous devez collecter des données sur un échantillon aléatoire d'hommes et de femmes (soit 30 chacun) et effectuer l'analyse ANOVA (c'est-à-dire la somme des carrés pour le genre et l'erreur) afin de déterminer si un effet existe.

Vous pouvez également utiliser la régression linéaire pour vérifier ceci:

Définissez: si le répondant est un homme et sinon. où:Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Ensuite, testez si est un test équivalent pour votre hypothèse.β=0

gung - Rétablir Monica
la source
2
Si je ne me trompe pas, la régression linéaire est l'estimation des coefficients qui définissent une bonne carte linéaire de X à Y. ANOVA permet de savoir s'il existe des différences significatives dans X lorsque Y prend deux valeurs différentes. Pouvez-vous nous expliquer pourquoi vous pensez qu'ils sont les mêmes?
robin girard
28
L’ANOVA peut être considérée comme un "sucre syntaxique" pour un sous-groupe spécial de modèles de régression linéaire. L’ANOVA est régulièrement utilisée par des chercheurs qui ne sont pas statisticiens de formation. Ils sont maintenant "institutionnalisés" et il est difficile de les reconvertir à la représentation plus générale ;-)
suncoolsu
3
Votre commentaire a suscité un vif intérêt, mais les expérimentateurs sont encore plus fous que ce que je pensais s'il s'agissait d'un sucre syntaxique pour eux! Quelle version est la plus intuitive .... Test d'hypothèse ANOVA sur : le rapport de la variance expliquée à la variance inexpliquée est-il suffisamment élevé? Test t sur le terme d'un modèle de régression: l'effet de suffisamment différent de zéro? Et, avec cette dernière formulation, vous obtenez également la direction du changement. Et, si vous deviez transformer les données, vous pouvez transformer en retour l'estimation du paramètre en une quantité physiquement significative. Contrairement à SS. βββ
f1r3br4nd

Réponses:

55

En tant qu'économiste, l'analyse de variance (ANOVA) est enseignée et généralement comprise en relation avec la régression linéaire (par exemple, dans A Course in Econometrics d' Arthur Goldberger ). Les économistes / économétriciens considèrent généralement l'ANOVA comme étant sans intérêt et préfèrent passer directement aux modèles de régression. Du point de vue des modèles linéaires (voire linéaires généralisés), ANOVA attribue des coefficients en lots, chaque lot correspondant à une "source de variation" dans la terminologie ANOVA.

Généralement, vous pouvez reproduire les inférences que vous obtiendriez de l'ANOVA en utilisant la régression mais pas toujours la régression OLS. Des modèles multiniveaux sont nécessaires pour analyser les structures de données hiérarchiques telles que les "conceptions en parcelles divisées", dans lesquelles les effets entre groupes sont comparés aux erreurs au niveau du groupe, et les effets intra-groupe sont comparés aux erreurs au niveau des données. L'article de Gelman [1] décrit ce problème de manière très détaillée et soutient efficacement que l'ANOVA est un outil statistique important qui doit encore être enseigné dans son propre intérêt.

Gelman soutient en particulier que l’Anova est un moyen de comprendre et de structurer des modèles multiniveaux. Par conséquent, l'ANOVA n'est pas une alternative à la régression mais un outil permettant de résumer des inférences complexes de grande dimension et d'analyser des données exploratoires.

Gelman est un statisticien très respecté et son point de vue devrait être valorisé. Cependant, presque tous les travaux empiriques que je faisais seraient tout aussi bien servis par la régression linéaire et je tombe donc fermement dans le camp de le considérer comme un peu inutile. Certaines disciplines avec des plans d'étude complexes (par exemple la psychologie) peuvent trouver l'ANOVA utile.

[1] Gelman, A. (2005). Analyse de la variance: pourquoi c'est plus important que jamais (avec discussion). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048

Graham Cookson
la source
1
Merci pour la référence Gelman. Je vais lire son papier. Mais ne pouvons-nous pas analyser des modèles à plusieurs niveaux en utilisant le maximum de vraisemblance classique? Je conviens que l'OLS est inefficace / inappropriée pour les modèles à plusieurs niveaux.
3
@Srikant - Il existe de nombreuses façons de traiter des données multiniveaux et Gelman est "le roi" de ce domaine. Son point de vue est que l'ANOVA est une méthode simple / claire permettant de saisir les caractéristiques clés de structures de données complexes et hiérarchisées ou de plans d'étude. ANOVA est un moyen simple / clair de présenter les résultats clés. En ce sens, son rôle est complémentaire ou exploratoire.
Graham Cookson
1
+1 pour une belle réponse claire. Le paragraphe 3 reprend essentiellement ce que j’ai appris en tant qu’étudiante en biologie, l’accent étant mis sur la facilité de combinaison de variables indépendantes continues et catégorielles dans un cadre ANOVA.
Freya Harrison
23

Je pense que le deuxième paragraphe de Graham est au cœur de la question. Je suppose que ce n’est pas tant technique qu’historique, probablement à cause de l’influence de " Méthodes statistiques pour les chercheurs ", et de la facilité à enseigner / appliquer l’outil aux non-statisticiens dans l’analyse expérimentale impliquant des facteurs discrets, plutôt que de se plonger dans la construction de modèles et outils associés. En statistique, l'ANOVA est généralement enseignée comme un cas particulier de régression. (Je pense que cela revient à expliquer pourquoi la biostatistique est remplie d'une myriade de "tests" éponymes, plutôt que de mettre l'accent sur la construction de modèles.)

ars
la source
14

Je dirais que certains d’entre vous utilisent le terme régression alors que vous devriez utiliser un modèle linéaire général. Je pense à la régression en tant que mécanisme impliquant des covariables continues. Lorsque des covariables continues sont combinées à des variables nominales, il convient d’appeler l’analyse de la covariance. Si seules des variables nominales sont utilisées, nous appelons cette forme spéciale de GLM l’analyse de la variance. Je pense que l’analyse de la variance a une deuxième signification distincte en tant que procédure pour tester des coefficients significatifs dans une métrique en utilisant la décomposition de la variance en composantes du terme de modèle et en composante du terme d’erreur.

Michael Chernick
la source
2
(+1) J'ai aussi immédiatement noté la "régression" ambiguë de la terminologie tout au long de la discussion.
Stéphane Laurent
1
(+1) GLM pourrait être le meilleur moyen de démêler différentes significations. Il convient également de noter que dans l’histoire de l’ANOVA, des procédures de calcul occultant la relation entre MCO et ANOVA ont été utilisées. La nomenclature pourrait donc être justifiée par des raisons historiques.
Jank
10

ANOVA peut être utilisé avec des variables explicatives catégoriques (facteurs) prenant plus de 2 valeurs (niveaux), et fournit un test de base indiquant que la réponse moyenne est la même pour chaque valeur. Cela évite le problème de régression lors de la réalisation de plusieurs tests t par paires entre ces niveaux:

  • Plusieurs tests t sur un niveau de signification fixe de 5% feraient en sorte que 5% environ donneraient des résultats erronés.
  • Ces tests ne sont pas indépendants les uns des autres. La comparaison des niveaux de A avec B est liée à la comparaison de A à C, les données de A étant utilisées dans les deux tests.

Il est préférable d’utiliser des contrastes pour différentes combinaisons de niveaux de facteurs que vous souhaitez tester.

Λίας
la source
1
Vous voudrez peut-être clarifier cette réponse; comme écrit, je vois 3 numéros. Les deux premiers sont un peu pointilleux mais devraient tout de même être modifiés, le troisième est essentiel dans le contexte de cette discussion. (1) ANOVA peut être utilisé avec seulement 2 groupes (bien que la plupart des gens exécutent alors un test t). (2) plusieurs tests t avec asymptotiquement des erreurs de type I pour 5% des contrastes pour lesquels aucune différence réelle n'existe ; Le nombre d'erreurs dépend du nombre de valeurs NULL. α=.05
gung - Réintégrer Monica
7
(3) votre réponse implique que le problème des comparaisons multiples s'applique à la régression MCO, ce qui n'est pas le cas si elle est effectuée correctement. La manière appropriée de tester un facteur dans un contexte de régression consiste à tester le modèle imbriqué avec tous les facteurs factices supprimés par rapport au modèle complet, tous les facteurs factices étant inclus. Ce test est identique à celui effectué par une ANOVA. Il est vrai que vous ne devez pas utiliser les tests des variables nominales individuelles (ce que je soupçonne être ce que vous essayez de décrire ici).
gung - Réintégrer Monica
3

ANOVA: vous testez s'il existe une différence significative entre les moyennes de la population en supposant que vous comparez plus de deux moyennes de la population, puis vous utiliserez un test F.

Dans l'analyse de régression, vous construisez un modèle entre des variables indépendantes et une variable dépendante. Si vous avez une variable indépendante à quatre niveaux, vous pouvez utiliser trois variables nominales et exécuter un modèle de régression. Le test F du modèle de régression utilisé pour tester la signification du modèle de régression est le même que le F obtenu lorsque vous testez la différence entre les moyennes de population. Si vous exécutez une régression pas à pas, certaines des variables factices risquent d’être supprimées du modèle et votre valeur F différera de celle obtenue lorsque vous effectuez un test ANOVA.

Jamal
la source
5
Cela fait de l'ANOVA une procédure de test et la régression d'une procédure de modélisation dans laquelle vous pouvez effectuer des tests. Mais l’ANOVA a aussi un modèle sous-jacent, qu’il soit ou non souligné dans tous les traitements d’introduction. Donc, cette réponse ne rend pas compte de la différence entre eux. La question n'est pas non plus abordée, c'est pourquoi on leur enseigne la différence indépendamment de fortes similitudes.
Nick Cox