En régression linéaire, pourquoi devrions-nous inclure des termes quadratiques alors que nous ne nous intéressons qu'aux termes d'interaction?

Supposons que je m'intéresse à un modèle de régression linéaire, pour , car je voudrais voir si une interaction entre les deux covariables a un effet sur Y.

Y_{i} = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{1} x_{2}

$Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2$

Dans les notes de cours d'un professeur (avec qui je n'ai pas de contact), il indique: Lorsque vous incluez des termes d'interaction, vous devez inclure leurs termes de deuxième degré. c'est-à-dire devraient être inclus dans la régression.

Y_{i} = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{1} x_{2} + β_{4} x_{1}^{2} + β_{5} x_{2}^{2}

$Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2$

Pourquoi devrait-on inclure des termes de deuxième degré alors que nous ne nous intéressons qu'aux interactions?

regression multiple-regression interaction linear-model fool126
la source

Si le modèle a , il doit inclure et . Mais et sont facultatifs.

x_{1} x_{2}

$x_1x_2$

x_{1}

$x_1$

x_{2}

$x_2$

x_{1}^{2}

$x_1^2$

x_{2}^{2}

$x_2^2$

user158565

L'opinion de votre professeur semble inhabituelle. Elle peut provenir d'un fond spécialisé ou d'un ensemble d'expériences, car «devrait» n'est certainement pas une exigence universelle. Vous trouverez peut-être que stats.stackexchange.com/questions/11009 vous intéresse.

whuber

@ user158565 salut! Puis-je demander pourquoi nous devrions également inclure et ? Je n'y avais pas pensé à l'origine, mais maintenant que vous en avez parlé ..!

x_{1}

$x_1$

x_{2}

$x_2$

fool126

@whuber salut! Merci pour le lien! Je pense que l'inclusion de l'effet principal est logique, mais j'ai du mal à l'étendre à l'obligation d'inclure des termes de second ordre. // user158565 Je pense que le lien ci-dessus a répondu à cela, merci!

fool126

Souhaitez-vous publier un lien vers les données?

James Phillips

Réponses:

Cela dépend du but de l'inférence. Si vous voulez déduire s'il existe une interaction, par exemple, dans un contexte causal (ou, plus généralement, si vous voulez interpréter le coefficient d'interaction), cette recommandation de votre professeur a du sens, et elle vient du le fait qu'une mauvaise spécification de la forme fonctionnelle peut conduire à de fausses inférences sur l'interaction .

Voici un exemple simple où il n'y a pas de terme d'interaction entre et dans l'équation structurelle de , mais si vous n'incluez pas le terme quadratique de , vous concluriez à tort que interagit avec alors qu'en fait il ne le fait pas '' t. $x_1$ $x_2$ $y$ $x_1$ $x_1$ $x_2$

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Cela peut être interprété comme un simple cas de biais de variable omis, et ici est la variable omise. Si vous revenez en arrière et incluez le terme au carré dans votre régression, l'interaction apparente disparaît. $x_1^2$

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Bien sûr, ce raisonnement s'applique non seulement aux termes quadratiques, mais à une erreur de spécification de la forme fonctionnelle en général. Le but ici est de modéliser la fonction d'attente conditionnelle de manière appropriée pour évaluer l'interaction. Si vous vous limitez à la modélisation avec régression linéaire, vous devrez inclure ces termes non linéaires manuellement. Mais une alternative est d'utiliser une modélisation de régression plus flexible, comme la régression de la crête du noyau par exemple.

Carlos Cinelli
la source

Merci @CarlosCinelli, en conclusion, dites-vous que nous devrions inclure des termes de même degré - pour tenir compte des erreurs de spécification potentielles de la forme fonctionnelle - et laisser la régression déterminer quels termes sont significatifs?

fool126

@KevinC la principale question ici est: voulez-vous interpréter le terme d'interaction? Si vous le faites, alors la mauvaise spécification de la forme fonctionnelle est un vrai problème. L'ajout de termes quadratiques n'est qu'un moyen simple de saisir les non-linéarités, mais le problème général est de modéliser la fonction d'attente conditionnelle de manière appropriée.

Carlos Cinelli

Veuillez ne pas inclure rm(list=ls())dans le code affiché ici! Si les gens copient et collent et exécutent le code, ils pourraient obtenir une surprise ... Je l'ai supprimé pour l'instant.

kjetil b halvorsen

Les deux modèles que vous avez énumérés dans votre réponse peuvent être ré-exprimés pour montrer clairement comment l'effet de est supposé dépendre de (ou l'inverse) dans chaque modèle. $X_1$ $X_2$

Le premier modèle peut être ré-exprimé comme ceci:

Y = β_{0} + (β_{1} + β_{3} X_{2}) X_{1} + β_{2} X_{2} + ϵ,

$Y = \beta_0 + (\beta_1 + \beta_3X_2)X_1 + \beta_2X_2+ \epsilon,$

ce qui montre que, dans ce modèle, est supposé avoir un effet linéaire sur (en contrôlant l'effet de ) mais la magnitude de cet effet linéaire - capturée par le coefficient de pente de - change linéairement en fonction de . Par exemple, l'effet de sur peut augmenter en amplitude à mesure que les valeurs de augmentent. $X1$ $Y$ $X_2$ $X_1$ $X_2$ $X_1$ $Y$ $X_2$

Le deuxième modèle peut être ré-exprimé comme ceci:

Y = β_{0} + (β_{1} + β_{3} X_{2}) X_{1} + β_{4} X_{1}^{2} + β_{2} X_{2} + β_{5} X_{2}^{2} + ϵ,

$Y = \beta_0 + (\beta_1 + \beta_3X_2)X_1 + \beta_4 X_1^2 + \beta_2X_2 +\beta_5X_2^2 + \epsilon,$

ce qui montre que, dans ce modèle, l'effet de sur (en contrôlant l'effet de ) est supposé être quadratique plutôt que linéaire. Cet effet quadratique est capturé en incluant à la fois et dans le modèle. Alors que le coefficient de est supposé être indépendant de , le coefficient de est supposé dépendre linéairement de . $X_1$ $Y$ $X_2$ $X_1$ $X_1^2$ $X_1^2$ $X_2$ $X_1$ $X_2$

L'utilisation de l'un ou l'autre modèle impliquerait que vous émettez des hypothèses entièrement différentes sur la nature de l'effet de sur (en contrôlant l'effet de ). $X_1$ $Y$ $X_2$

Habituellement, les gens correspondent au premier modèle. Ils pourraient ensuite représenter tour à tour les résidus de ce modèle par rapport à et . Si les résidus révèlent un motif quadratique dans les résidus en fonction de et / ou , le modèle peut être augmenté en conséquence pour inclure et / ou (et éventuellement leur interaction). $X_1$ $X_2$ $X_1$ $X_2$ $X_1^2$ $X_2^2$

Notez que j'ai simplifié la notation que vous avez utilisée pour la cohérence et également rendu le terme d'erreur explicite dans les deux modèles.

Isabella Ghement
la source

Bonjour @IsabellaGhement, merci pour votre explication. En résumé, il n'y a vraiment pas de "règles" en ce sens que nous devrions ajouter des termes quadratiques si nous incluons des termes d'interaction. En fin de compte, cela revient aux hypothèses que nous faisons sur notre modèle et aux résultats de notre analyse (c.-à-d. Les parcelles résiduelles). Est-ce correct? Merci encore :)!

fool126

C'est vrai, Kevin! Il n'y a pas de "règles", car chaque ensemble de données est différent et vise également à répondre à différentes questions. C'est pourquoi il est important pour nous de savoir que chaque modèle que nous adaptons à cet ensemble de données implique des hypothèses différentes, qui doivent être appuyées par les données pour que nous puissions faire confiance aux résultats du modèle. Les graphiques de diagnostic du modèle (par exemple, graphique des valeurs résiduelles par rapport aux valeurs ajustées) nous aident à vérifier dans quelle mesure - le cas échéant - les données soutiennent les hypothèses du modèle.

Isabella Ghement

@KevinC: Super! Bonnes vacances à toi aussi, Kevin! ☃🎉🎁🎈

Isabella Ghement