Jusqu'à présent, j'ai vu l'ANOVA utilisée de deux manières:
Premièrement , dans mon texte d'introduction aux statistiques, l'ANOVA a été présentée comme un moyen de comparer les moyennes de trois groupes ou plus, comme une amélioration par rapport à la comparaison par paires, afin de déterminer si l'un des moyennes a une différence statistiquement significative.
Deuxièmement , dans mon texte d'apprentissage statistique, j'ai vu l'ANOVA utilisée pour comparer deux (ou plus) modèles imbriqués afin de déterminer si le modèle 1, qui utilise un sous-ensemble des prédicteurs du modèle 2, correspond aussi bien aux données, ou si le Le modèle 2 est supérieur.
Maintenant, je suppose que d'une manière ou d'une autre, ces deux choses sont en fait très similaires car elles utilisent toutes deux le test ANOVA, mais en surface, elles me semblent très différentes. D'une part, la première utilisation compare trois groupes ou plus, tandis que la deuxième méthode peut être utilisée pour comparer seulement deux modèles. Quelqu'un voudrait-il s'il vous plaît élucider le lien entre ces deux utilisations?
anova()
fonction, car la première ANOVA réelle utilise également un test F. Cela conduit à une confusion terminologique.anova()
fonction pouvait faire plus que de l'ANOVA. Cet article soutient votre conclusion: stackoverflow.com/questions/20128781/f-test-for-two-models-in-rRéponses:
À ma connaissance, l'intuition abstraite de l'ANOVA est la suivante: on décompose les sources de variance de la variable observée dans différentes directions et étudie les contributions respectives. Pour être plus précis, on décompose la carte d'identité en une somme de projections et étudie quelles projections / directions contribuent de manière importante à expliquer la variance et lesquelles ne le font pas. La base théorique est le théorème de Cochran .
Pour être moins abstrait, j'ai intégré la deuxième forme mentionnée par l'OP dans le cadre que je viens de décrire. Par la suite, j'interprète la première forme comme un cas particulier de la seconde.
Considérons un modèle de régression avec variables explicatives (le modèle complet) et comparons-le au modèle restreint avec variables. WLOG, les dernières variables du modèle complet ne sont pas incluses dans le modèle restreint. La question à laquelle l'ANOVA a répondu estK - J JK K−J J
"Peut-on expliquer significativement plus de variance dans la variable observée si l'on inclut variables supplémentaires"J ?
On répond à cette question en comparant les contributions de variance des premières variables , des variables suivantes et de la partie restante / inexpliquée (la somme résiduelle des carrés). Cette décomposition (obtenue par exemple à partir du théorème de Cochran) est utilisée pour construire le test F. Ainsi, on analyse la réduction (en incluant plus de variables) de la somme résiduelle des carrés du modèle restreint (correspondant au tous les coefficients appartenant aux dernières variables sont nuls ) en incluant plus de variables et obtient la statistique F Si la valeur est suffisamment grande, la variance expliquée par le supplémentaireJ H 0 : JK−J J H0: J
Or, la première forme mentionnée par le PO est interprétée comme un cas particulier de la seconde forme . Considérons trois groupes différents A, B et C avec les moyennes , et . Le est testé en comparant la variance expliquée par la régression sur une interception (le modèle restreint) avec la variance expliquée par le modèle complet contenant une interception, un mannequin pour le groupe A et un mannequin pour le groupe B. La statistique F résultante est équivalente à l'ANOVA- test sur WikipédiaμA μB μC H0:μA=μB=μC
la source
Si vous effectuez une ANOVA unidirectionnelle pour tester s'il existe une différence significative entre les groupes, vous comparez implicitement deux modèles imbriqués (il n'y a donc qu'un seul niveau d'imbrication, mais il est toujours en cours d'imbrication).
Ces deux modèles sont:
Modèle 1: Les valeurs sont modélisées par les moyennes estimées des groupes.
(et si nous représentons le modèle par les variations entre les groupes, , alors le modèle 0 est imbriqué dans le modèle 1)βj^
Un exemple de comparaison des moyennes et de l'équivalence avec des modèles imbriqués: prenons la longueur du sépale (cm) de l'ensemble de données sur l'iris (si nous utilisons les quatre variables, nous pourrions en fait faire du LDA ou de la MANOVE comme Fisher l'a fait en 1936)
Les moyennes totales et groupées observées sont:
Qui est sous forme de modèle:
Le dans le modèle 1 représente la somme totale des carrés .∑ϵ2i=102.1683
Le dans le modèle 2 représente la somme des carrés au sein du groupe .∑ϵ2i=38.9562
Et la table ANOVA sera similaire (et calculera implicitement la différence qui est la somme entre les groupes de carrés qui est le 63,212 dans la table avec 2 degrés de liberté):
avec
ensemble de données utilisé dans l'exemple:
longueur des pétales (cm) pour trois espèces différentes de fleurs d'iris
la source
L'utilisation de l'ANOVA en comparaison entre plusieurs modèles signifie pour tester si au moins un des coefficients utilisés dans le modèle d'ordre supérieur (et absent dans le modèle d'ordre inférieur) est significativement différent de zéro.
Cela revient à dire que la somme des résidus pour le modèle d'ordre supérieur est nettement inférieure à celle du modèle d'ordre inférieur.
Il s’agit de deux modèles puisque l’équation de base utilisée est
Où MSM est la moyenne des résidus au carré du modèle d'ordre inférieur (où l'ordre le plus bas est la moyenne de la variable cible, c'est-à-dire intercepter).
( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )
Vous pouvez lire des sujets similaires sur CV, comme
Comment utiliser anova pour comparer deux modèles?
la source
D'après ce que j'ai appris,
Vous pouvez utiliser des tableaux ANOVA pour déterminer si vos variables explicatives ont réellement un effet significatif sur la variable de réponse, et ainsi s'adapter au modèle approprié.
Par exemple, supposons que vous ayez 2 variables explicatives et , mais vous ne savez pas si réellement un effet sur Y. Vous pouvez comparer les tableaux ANOVA des deux modèles:x 2 x 2x1 x2 x2
y = β 0 + β 1 x 1 + ϵ
Vous effectuez un test d'hypothèse avec la somme des carrés extra résiduels à l'aide du test F pour déterminer si un modèle réduit avec seulement est plus significatif.x1
Voici un exemple de sortie ANOVA pour un projet sur lequel je travaille dans R, où je teste deux modèles (un avec les jours variables et un sans les jours variables):
Comme vous pouvez le voir, la valeur de p correspondante du test F est de 0,13, ce qui est supérieur à 0,05. Ainsi, nous ne pouvons pas rejeter l'hypothèse nulle selon laquelle Days n'a aucun effet sur Y. Donc, je choisis le modèle 1 plutôt que le modèle 2.
la source