comment interpréter le terme d'interaction dans la formule lm dans R?

9

Dans R, si j'appelle la lm()fonction de la manière suivante:

lm.1 = lm(response ~ var1 + var2 + var1 * var2)
summary(lm.1)

Cela me donne un modèle linéaire de la variable de réponse avec var1, var2et l'interaction entre eux. Cependant, comment interprétons-nous numériquement exactement le terme d'interaction?

La documentation indique qu'il s'agit du «croisement» entre var1et var2, mais elle ne donne pas d'explication sur ce qu'est exactement le «croisement».

Il serait utile pour moi de savoir quels nombres exacts R calcule pour incorporer l'interaction entre les deux variables.

Enzo
la source
Aimeriez-vous savoir spécifiquement comment R crée la matrice de conception pour cette formule, ou êtes-vous plus largement intéressé par la façon d'interpréter un tel terme multiplicatif («interaction») en termes de modèle ajusté?
Momo
Je suis plus intéressé par la façon d'interpréter ce terme multiplicatif. Par exemple, si je veux écrire une formule linéaire (mathématique, pas R ...), que dois-je mettre pour le terme multiplicatif?
Enzo
Pour expliquer ce que signifie la croix, jetez un œil au calcul var3 <- var 1 * var2puis à la constructionlm.2 <- lm(response ~ var1 + var2 + var3)
James Stanley
1
c'est donc simplement une multiplication d'entrée de gamme?
Enzo
1
@Enzo, oui, la croix est littéralement les deux termes multipliés - l'interprétation dépendra en grande partie si var1et var2sont tous les deux continus (assez difficile à interpréter, à mon avis) ou si l'un d'entre eux est par exemple binaire catégorique (plus facile à considérer.) Voir cette réponse pour quelques exemples d'interprétation par Peter Flom: stats.stackexchange.com/a/45512/16974
James Stanley

Réponses:

8

La façon standard d'écrire l'équation de prédiction pour votre modèle est la suivante:

y^=b0+b1x1+b2x2+b12x1x2

Mais comprendre l'interaction est un peu plus facile si nous prenons cela en compte différemment:

y^=(b0+b2x2)+(b1+b12x2)x1

Avec cette factorisation, nous pouvons voir que pour une valeur donnée de l'ordonnée à l'origine pour est et la pente sur est . La relation entre et dépend donc de .x 1 b 0 + b 2x 2 x 1 ( b 1 + b 12x 2 ) y x 1 x 2x2x1b0+b2x2x1(b1+b12x2)yx1x2

Une autre façon de comprendre cela est de tracer les lignes prédites entre et pour différentes valeurs de (ou l'inverse). Les fonctions et dans le package TeachingDemos pour R ont été conçues pour aider avec ces types de tracés.x 1 x 2yx1x2Predict.PlotTkPredict

Greg Snow
la source
3

Supposons que vous obteniez des estimations ponctuelles de 4 pour , 2 pour et 1,5 pour l'interaction. Ensuite, l'équation dit que l' ajustement estx 2x1x2lm

y=4x1+2x2+1.5x1x2

C'est ça que tu voulais?

Peter Flom
la source
3

Il est plus facile de penser aux interactions en termes de variables discrètes. Vous avez peut-être étudié les ANOVA bidirectionnelles, où nous avons deux variables de regroupement (par exemple, le sexe et la catégorie d'âge, avec trois niveaux pour l'âge) et nous examinons comment elles se rapportent à une mesure continue (notre variable dépendante, par exemple le QI).

Le terme x1 * x2, s'il est significatif, peut être compris (dans cet exemple inventé trivial) comme un QI se comportant différemment à travers les niveaux d'âge pour les différents sexes. Par exemple, le QI est peut-être stable pour les hommes dans les trois groupes d'âge, mais les jeunes femmes commencent en dessous des jeunes hommes et ont une trajectoire ascendante (le groupe de vieillesse ayant une moyenne plus élevée que le groupe de vieillesse pour les hommes). Dans un graphique des moyennes, cela impliquerait une ligne horizontale pour les hommes au milieu du graphique, et peut-être une ligne à 45 degrés pour les femmes qui commence en dessous des hommes mais se termine au-dessus des hommes.

L'essentiel est que lorsque vous vous déplacez le long des niveaux d'une variable (ou "en maintenant X1 constant"), ce qui se passe dans les autres variables change. Cette interprétation fonctionne également avec des variables prédictives continues, mais n'est pas si facile à illustrer concrètement. Dans ce cas, vous voudrez peut-être prendre des valeurs particulières de X1 et X2 et voir ce qui arrive à Y.

Twitch_City
la source