Dans R, si j'appelle la lm()
fonction de la manière suivante:
lm.1 = lm(response ~ var1 + var2 + var1 * var2)
summary(lm.1)
Cela me donne un modèle linéaire de la variable de réponse avec var1
, var2
et l'interaction entre eux. Cependant, comment interprétons-nous numériquement exactement le terme d'interaction?
La documentation indique qu'il s'agit du «croisement» entre var1
et var2
, mais elle ne donne pas d'explication sur ce qu'est exactement le «croisement».
Il serait utile pour moi de savoir quels nombres exacts R calcule pour incorporer l'interaction entre les deux variables.
r
regression
Enzo
la source
la source
var3 <- var 1 * var2
puis à la constructionlm.2 <- lm(response ~ var1 + var2 + var3)
var1
etvar2
sont tous les deux continus (assez difficile à interpréter, à mon avis) ou si l'un d'entre eux est par exemple binaire catégorique (plus facile à considérer.) Voir cette réponse pour quelques exemples d'interprétation par Peter Flom: stats.stackexchange.com/a/45512/16974Réponses:
La façon standard d'écrire l'équation de prédiction pour votre modèle est la suivante:
Mais comprendre l'interaction est un peu plus facile si nous prenons cela en compte différemment:
Avec cette factorisation, nous pouvons voir que pour une valeur donnée de l'ordonnée à l'origine pour est et la pente sur est . La relation entre et dépend donc de .x 1 b 0 + b 2 ∗ x 2 x 1 ( b 1 + b 12 ∗ x 2 ) y x 1 x 2x2 x1 b0+b2∗x2 x1 (b1+b12∗x2) y x1 x2
Une autre façon de comprendre cela est de tracer les lignes prédites entre et pour différentes valeurs de (ou l'inverse). Les fonctions et dans le package TeachingDemos pour R ont été conçues pour aider avec ces types de tracés.x 1 x 2y x1 x2
Predict.Plot
TkPredict
la source
Supposons que vous obteniez des estimations ponctuelles de 4 pour , 2 pour et 1,5 pour l'interaction. Ensuite, l'équation dit que l' ajustement estx 2x1 x2
lm
C'est ça que tu voulais?
la source
Il est plus facile de penser aux interactions en termes de variables discrètes. Vous avez peut-être étudié les ANOVA bidirectionnelles, où nous avons deux variables de regroupement (par exemple, le sexe et la catégorie d'âge, avec trois niveaux pour l'âge) et nous examinons comment elles se rapportent à une mesure continue (notre variable dépendante, par exemple le QI).
Le terme x1 * x2, s'il est significatif, peut être compris (dans cet exemple inventé trivial) comme un QI se comportant différemment à travers les niveaux d'âge pour les différents sexes. Par exemple, le QI est peut-être stable pour les hommes dans les trois groupes d'âge, mais les jeunes femmes commencent en dessous des jeunes hommes et ont une trajectoire ascendante (le groupe de vieillesse ayant une moyenne plus élevée que le groupe de vieillesse pour les hommes). Dans un graphique des moyennes, cela impliquerait une ligne horizontale pour les hommes au milieu du graphique, et peut-être une ligne à 45 degrés pour les femmes qui commence en dessous des hommes mais se termine au-dessus des hommes.
L'essentiel est que lorsque vous vous déplacez le long des niveaux d'une variable (ou "en maintenant X1 constant"), ce qui se passe dans les autres variables change. Cette interprétation fonctionne également avec des variables prédictives continues, mais n'est pas si facile à illustrer concrètement. Dans ce cas, vous voudrez peut-être prendre des valeurs particulières de X1 et X2 et voir ce qui arrive à Y.
la source