Dans la régression multiple, pourquoi les interactions sont-elles modélisées comme des produits, et pas autre chose, des prédicteurs?

8

Envisagez une régression linéaire multiple. Cette question peut être d'une simplicité trompeuse, mais j'essaie de comprendre intuitivement pourquoi, disons que si j'ai des prédicteurs X1 et X2, les interactions entre ces prédicteurs peuvent être correctement capturées par X1 * X2.

Je sais que les termes d'interaction sont modélisés comme des produits, simplement parce que c'est ce qu'on m'a enseigné à l'école, et c'est ce que tout le monde dit de faire. Je suppose qu'il y a peut-être un argument géométrique.

Mais pourquoi un produit (disons deux caractéristiques numériques, et non la complexité supplémentaire de la multiplication par l'une étant une variable fictive tandis que l'autre est numérique, etc.) va-t-il capturer adéquatement les interactions?

Pourquoi les "interactions" ne sont-elles pas mieux capturées par un autre f (X1, X2) par défaut au lieu de spécifiquement X1 * X2?

Je peux voir l'idée que X1 * X2 peut capturer des situations où les signes de X1 et X2 sont identiques ou non, mais alors pourquoi, par exemple, les interactions par défaut ne seraient-elles pas modélisées par disons f (X1, X2) = signe (X1 ) * signe (X2) au lieu de f (X1, X2) = X1X2?

Je me rends compte que je peux ajouter n'importe quel autre f (X1, X2) à une régression ou à n'importe quel modèle prédictif, mais trouver la forme exacte des interactions par codage manuel prend du temps. Comment puis-je savoir que X1X2 est une bonne première supposition?

ChilliProject
la source

Réponses:

6

On peut concevoir une "interaction" entre les variables régressives et comme un écart par rapport à une relation parfaitement linéairex1x2 dans laquelle la relation entre un régresseur et la réponse est différente pour différentes valeurs des autres régresseurs. Le "terme d'interaction" habituel est, dans un sens à expliquer ci-dessous, un tel "plus simple" départ.

Définitions et concepts

"Relation linéaire" signifie simplement le modèle habituel dans lequel nous supposons qu'une réponse diffère d'une combinaison linéaire de (et d'une constante) par des erreurs indépendantes de moyenne nulleYxiε:

(*)Y=β0+β1x1+β2x2+ε.

"Interaction", au sens le plus général, signifie que les paramètres peuvent dépendre d'autres variables.βi

Plus précisément, dans cet exemple de seulement deux régresseurs, nous pourrions écrire de manière générique

β1=β1(x2) and β2=β2(x1).

Une analyse

Maintenant, dans la pratique, personne, sauf un physicien théoricien, ne croit vraiment que le modèle est entièrement exact: il s'agit d'une approximation de la vérité et, nous l'espérons, proche. Poursuivant cette idée plus loin, nous pourrions nous demander si nous pourrions également rapprocher les fonctions avec les fonctions linéaires au cas où nous aurions besoin de modéliser une sorte d'interaction. Plus précisément, nous pourrions essayer d'écrire()βi

β1(x2)=γ0+γ1x2+ tiny error1;
β2(x1)=δ0+δ1x1+ tiny error2.

Voyons où cela mène. Le fait de brancher ces approximations linéaires dans donne()

Y=β0+β1(x2)x1+β2(x1)x2+ε=β0+(γ0+γ1x2+ tiny error1)x1+(δ0+δ1x1+ tiny error2)x2+ε=β0+γ0x1+δ0x2+(γ1+δ1)x1x2+

où " " représente l'erreur totale,

=( tiny error1)x1+( tiny error2)x2+ε.

Avec un peu de chance, multiplier ces deux "petites erreurs" par des valeurs typiques de sera (a) sans conséquence par rapport à ou (b) peut être traité comme des termes aléatoires qui, lorsqu'ils sont ajoutés à (et peut-être en ajustant le terme constant pour tenir compte de tout biais systématique) peut être traité comme un terme d'erreur aléatoire. xiεεβ0

Dans les deux cas, avec un changement de notation, nous voyons que ce modèle d'approximation linéaire en interaction prend la forme

(**)Y=β0+β1x1+β2x2+β12x1x2+ε,

qui est précisément le modèle de régression "d'interaction" habituel. (Notez qu'aucun des nouveaux paramètres, ni lui-même, n'est la même quantité représentée à l'origine par ces termes en )ε().

Observez comment apparaît à travers la variation des deux paramètres d'origine. Il capture la combinaison de (i) comment le coefficient de dépend de (à savoir, par ) et (ii) comment le coefficient de dépend de (à ).β12x1x2γ1x2x1δ1


Quelques conséquences

C'est une conséquence de cette analyse que si nous fixons tous les régresseurs sauf un, alors ( conditionnellement ) la réponse est toujours une fonction linéaire du régresseur restant. Y Par exemple, si nous fixons la valeur de alors nous pouvons réécrire le modèle d'interaction commex2,()

Y=(β0+β2x2)+(β1+β12x2)x1+ε,

où l'ordonnée à l'origine est et la pente (c'est-à-dire le coefficient ) est Cela permet une description et un aperçu faciles. Géométriquement, la surface donnée par la fonctionβ0+β2x2x1β1+β2x2.

f(x1,x2)=β0+β1x1+β2x2+β12x1x2

est réglé: lorsque nous le coupons parallèlement à l'un des axes de coordonnées, le résultat est toujours une ligne. (Cependant, la surface elle-même n'est pas plane sauf lorsque En effet, elle a partout une courbure gaussienne négative.)β12=0.

Enfin, si notre espoir pour (a) ou (b) ne se concrétise pas, nous pourrions étendre le comportement fonctionnel du d' origine pour inclure des termes de second ordre ou plus. La même analyse montre que cela introduira des termes de la forme etc. dans le modèle. En ce sens, l' inclusion d'un terme d'interaction (produit) n'est que la première - et la plus simple - étape vers la modélisation des relations non linéaires entre la réponse et les régresseurs au moyen de fonctions polynomiales.βix12, x22, x1x22, x12x2,

Enfin, dans son manuel EDA (Addison-Wesley 1977), John Tukey a montré comment cette approche peut être mise en œuvre de manière beaucoup plus générale. Après avoir d'abord "ré-exprimé" (c'est-à-dire appliqué des transformations non linéaires appropriées) aux régresseurs et à la réponse, il arrive souvent que le modèle s'applique aux variables transformées ou, sinon, le modèle peuvent facilement être ajustés (en utilisant une analyse robuste des résidus). Cela permet à une grande variété de relations non linéaires d'être exprimées et interprétées comme des réponses conditionnellement linéaires.()()

whuber
la source
1
Ceci est une belle réponse détaillée. Je vous remercie. À part, je continue de voir des références au livre de Tukey à venir sur ce site ... même si c'est si vieux. Il est peut-être temps de le lire.
ChilliProject