Je suis nouveau dans les statistiques et j'essaie de comprendre la différence entre l'ANOVA et la régression linéaire. J'utilise R pour explorer cela. J'ai lu divers articles sur les raisons pour lesquelles l'ANOVA et la régression sont différentes mais toujours les mêmes et comment elles peuvent être visualisées, etc.
Je comprends que l'ANOVA compare la variance au sein des groupes avec la variance entre les groupes pour déterminer s'il existe ou non une différence entre l'un des groupes testés. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )
Pour la régression linéaire, j'ai trouvé un article dans ce forum qui dit que la même chose peut être testée lorsque nous testons si b (pente) = 0. ( Pourquoi l'ANOVA est-elle enseignée / utilisée comme s'il s'agissait d'une méthodologie de recherche différente de la régression linéaire? )
Pour plus de deux groupes, j'ai trouvé un site Web indiquant:
L'hypothèse nulle est:
Le modèle de régression linéaire est:
La sortie de la régression linéaire est cependant alors l'ordonnée à l'origine pour un groupe et la différence par rapport à cette interception pour les deux autres groupes. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )
Pour moi, cela ressemble à ce que les interceptions sont comparées et non les pentes?
Un autre exemple où ils comparent les interceptions plutôt que les pentes peut être trouvé ici: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )
J'ai du mal à comprendre ce qui est réellement comparé dans la régression linéaire? les pentes, les interceptions ou les deux?
la source
Réponses:
Votre confusion là-bas tient au fait que vous devez être très prudent pour être clair sur les interceptions et les pentes que vous voulez dire (interception de quoi? Pente de quoi?).
Le rôle d'un coefficient d'un mannequin 0-1 dans une régression peut être considéré à la fois comme une pente et comme une différence d'interception.
Simplifions les choses autant que possible, en considérant un cas à deux échantillons.
Nous pouvons toujours faire une ANOVA unidirectionnelle avec deux échantillons, mais cela se révèle être essentiellement le même qu'un test t bilatéral à deux échantillons (cas de variance égale).
Voici un diagramme de la situation de la population:
Si , alors le modèle linéaire de population estδ= μ2- μ1
de sorte que lorsque (ce qui est le cas lorsque nous sommes dans le groupe 1), la moyenne de est et lorsque (lorsque nous sommes dans le groupe 2) , la moyenne de est .y μx = 0 y μ1+ δ× 0 = μ1 x = 1 y μ1+ δ× 1 = μ1+ μ2- μ1= μ2
C'est le coefficient de la pente ( dans ce cas) et la différence de moyennes (et vous pourriez considérer ces moyennes comme des intersections) est la même quantité.δ
Pour aider au concret, voici deux exemples:
A quoi ressemblent-ils?
À quoi ressemble le test de différence de moyens?
Comme test t:
En régression:
Nous pouvons voir dans la régression que le terme d'interception est la moyenne du groupe 1, et le coefficient groupg2 (coefficient de «pente») est la différence des moyennes du groupe. Pendant ce temps, la valeur de p pour la régression est la même que la valeur de p pour le test t (0,003976)
la source