R: Anova et régression linéaire

9

Je suis nouveau dans les statistiques et j'essaie de comprendre la différence entre l'ANOVA et la régression linéaire. J'utilise R pour explorer cela. J'ai lu divers articles sur les raisons pour lesquelles l'ANOVA et la régression sont différentes mais toujours les mêmes et comment elles peuvent être visualisées, etc.

Je comprends que l'ANOVA compare la variance au sein des groupes avec la variance entre les groupes pour déterminer s'il existe ou non une différence entre l'un des groupes testés. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

Pour la régression linéaire, j'ai trouvé un article dans ce forum qui dit que la même chose peut être testée lorsque nous testons si b (pente) = 0. ( Pourquoi l'ANOVA est-elle enseignée / utilisée comme s'il s'agissait d'une méthodologie de recherche différente de la régression linéaire? )

Pour plus de deux groupes, j'ai trouvé un site Web indiquant:

L'hypothèse nulle est: H0:µ1=µ2=µ3

Le modèle de régression linéaire est: y=b0+b1X1+b2X2+e

La sortie de la régression linéaire est cependant alors l'ordonnée à l'origine pour un groupe et la différence par rapport à cette interception pour les deux autres groupes. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

Pour moi, cela ressemble à ce que les interceptions sont comparées et non les pentes?

Un autre exemple où ils comparent les interceptions plutôt que les pentes peut être trouvé ici: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

J'ai du mal à comprendre ce qui est réellement comparé dans la régression linéaire? les pentes, les interceptions ou les deux?

Paul
la source
Voir aussi stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Réponses:

16

cela ressemble à ce que les interceptions sont comparées et non les pentes?

Votre confusion là-bas tient au fait que vous devez être très prudent pour être clair sur les interceptions et les pentes que vous voulez dire (interception de quoi? Pente de quoi?).

Le rôle d'un coefficient d'un mannequin 0-1 dans une régression peut être considéré à la fois comme une pente et comme une différence d'interception.

Simplifions les choses autant que possible, en considérant un cas à deux échantillons.

Nous pouvons toujours faire une ANOVA unidirectionnelle avec deux échantillons, mais cela se révèle être essentiellement le même qu'un test t bilatéral à deux échantillons (cas de variance égale).

Voici un diagramme de la situation de la population:

deux groupes signifie régression, situation de la population

Si , alors le modèle linéaire de population estδ=μ2μ1

y=μ1+δx+e

de sorte que lorsque (ce qui est le cas lorsque nous sommes dans le groupe 1), la moyenne de est et lorsque (lorsque nous sommes dans le groupe 2) , la moyenne de est .y μx=0yμ1+δ×0=μ1x=1yμ1+δ×1=μ1+μ2μ1=μ2

C'est le coefficient de la pente ( dans ce cas) et la différence de moyennes (et vous pourriez considérer ces moyennes comme des intersections) est la même quantité.δ

Pour aider au concret, voici deux exemples:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

A quoi ressemblent-ils?

échantillon

À quoi ressemble le test de différence de moyens?

Comme test t:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

En régression:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

Nous pouvons voir dans la régression que le terme d'interception est la moyenne du groupe 1, et le coefficient groupg2 (coefficient de «pente») est la différence des moyennes du groupe. Pendant ce temps, la valeur de p pour la régression est la même que la valeur de p pour le test t (0,003976)

Glen_b -Reinstate Monica
la source
Merci beaucoup pour cet exemple extrêmement utile. Je viens de réaliser qu'il y a encore une question ouverte. Je ne comprends pas pourquoi la pente est notée μ2 − μ1? La pente n'est-elle pas définie comme m = delta Y / delta X ??
Paul
2
C'est est; mais et et ainsi . En bref, lorsque vous codez 0/1, la pente est la différence. Δ y = ( μ 1 + δ × 1 ) - ( μ 1 + δ × 0 ) = δ = μ 2 - μ 1 Δ y / Δ x = ( μ 2 - μ 1 ) / 1 = μ 2 - μ 1Δx=10=1Δy=(μ1+δ×1)(μ1+δ×0)=δ=μ2μ1Δy/Δx=(μ2μ1)/1=μ2μ1
Glen_b -Reinstate Monica
+1 l'illustration graphique expliquant pourquoi la pente est égale à la différence sur les moyennes m'a beaucoup aidé !!
Haitao Du