Dans la régression multiple, pourquoi les interactions sont-elles modélisées comme des produits, et pas autre chose, des prédicteurs?

Envisagez une régression linéaire multiple. Cette question peut être d'une simplicité trompeuse, mais j'essaie de comprendre intuitivement pourquoi, disons que si j'ai des prédicteurs X1 et X2, les interactions entre ces prédicteurs peuvent être correctement capturées par X1 * X2.

Je sais que les termes d'interaction sont modélisés comme des produits, simplement parce que c'est ce qu'on m'a enseigné à l'école, et c'est ce que tout le monde dit de faire. Je suppose qu'il y a peut-être un argument géométrique.

Mais pourquoi un produit (disons deux caractéristiques numériques, et non la complexité supplémentaire de la multiplication par l'une étant une variable fictive tandis que l'autre est numérique, etc.) va-t-il capturer adéquatement les interactions?

Pourquoi les "interactions" ne sont-elles pas mieux capturées par un autre f (X1, X2) par défaut au lieu de spécifiquement X1 * X2?

Je peux voir l'idée que X1 * X2 peut capturer des situations où les signes de X1 et X2 sont identiques ou non, mais alors pourquoi, par exemple, les interactions par défaut ne seraient-elles pas modélisées par disons f (X1, X2) = signe (X1 ) * signe (X2) au lieu de f (X1, X2) = X1X2?

Je me rends compte que je peux ajouter n'importe quel autre f (X1, X2) à une régression ou à n'importe quel modèle prédictif, mais trouver la forme exacte des interactions par codage manuel prend du temps. Comment puis-je savoir que X1X2 est une bonne première supposition?

multiple-regression feature-selection interaction ChilliProject
la source

On peut concevoir une "interaction" entre les variables régressives et comme un écart par rapport à une relation parfaitement linéaire $x_1$ $x_2$ dans laquelle la relation entre un régresseur et la réponse est différente pour différentes valeurs des autres régresseurs. Le "terme d'interaction" habituel est, dans un sens à expliquer ci-dessous, un tel "plus simple" départ.

Définitions et concepts

"Relation linéaire" signifie simplement le modèle habituel dans lequel nous supposons qu'une réponse diffère d'une combinaison linéaire de (et d'une constante) par des erreurs indépendantes de moyenne nulle $Y$ $x_i$ $\varepsilon:$

\begin{matrix} (*) & Y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ε . \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon.\tag{*}$

"Interaction", au sens le plus général, signifie que les paramètres peuvent dépendre d'autres variables. $\beta_i$

Plus précisément, dans cet exemple de seulement deux régresseurs, nous pourrions écrire de manière générique

β_{1} = β_{1} (x_{2}) and β_{2} = β_{2} (x_{1}) .

$\beta_1 = \beta_1(x_2)\text{ and }\beta_2 = \beta_2(x_1).$

Une analyse

Maintenant, dans la pratique, personne, sauf un physicien théoricien, ne croit vraiment que le modèle est entièrement exact: il s'agit d'une approximation de la vérité et, nous l'espérons, proche. Poursuivant cette idée plus loin, nous pourrions nous demander si nous pourrions également rapprocher les fonctions avec les fonctions linéaires au cas où nous aurions besoin de modéliser une sorte d'interaction. Plus précisément, nous pourrions essayer d'écrire $(*)$ $\beta_i$

β_{1} (x_{2}) = γ_{0} + γ_{1} x_{2} + {tiny error}_{1};

$\beta_1(x_2) = \gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1;$

β_{2} (x_{1}) = δ_{0} + δ_{1} x_{1} + {tiny error}_{2} .

$\beta_2(x_1) = \delta_0 + \delta_1 x_1 + \text{ tiny error}_2.$

Voyons où cela mène. Le fait de brancher ces approximations linéaires dans donne $(*)$

\begin{aligned} Y & = β_{0} + β_{1} (x_{2}) x_{1} + β_{2} (x_{1}) x_{2} + ε \\ = β_{0} + (γ_{0} + γ_{1} x_{2} + {tiny error}_{1}) x_{1} + (δ_{0} + δ_{1} x_{1} + {tiny error}_{2}) x_{2} + ε \\ = β_{0} + γ_{0} x_{1} + δ_{0} x_{2} + (γ_{1} + δ_{1}) x_{1} x_{2} + \dots \end{aligned}

$\eqalign{ Y &= \beta_0 + \beta_1(x_2) x_1 + \beta_2(x_1) x_2 + \varepsilon \\ &= \beta_0 + (\gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1)x_1 + (\delta_0 + \delta_1 x_1 + \text{ tiny error}_2)x_2 + \varepsilon \\ &= \beta_0 + \gamma_0 x_1 + \delta_0 x_2 + (\gamma_1 + \delta_1)x_1 x_2 + \ldots }$

où " " représente l'erreur totale, $\ldots$

\dots = ({tiny error}_{1}) x_{1} + ({tiny error}_{2}) x_{2} + ε .

$\ldots = (\text{ tiny error}_1)x_1 + (\text{ tiny error}_2)x_2 + \varepsilon.$

Avec un peu de chance, multiplier ces deux "petites erreurs" par des valeurs typiques de sera (a) sans conséquence par rapport à ou (b) peut être traité comme des termes aléatoires qui, lorsqu'ils sont ajoutés à (et peut-être en ajustant le terme constant pour tenir compte de tout biais systématique) peut être traité comme un terme d'erreur aléatoire. $x_i$ $\varepsilon$ $\varepsilon$ $\beta_0$

Dans les deux cas, avec un changement de notation, nous voyons que ce modèle d'approximation linéaire en interaction prend la forme

\begin{matrix} (**) & Y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2} + ε, \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1 x_2 + \varepsilon,\tag{**}$

qui est précisément le modèle de régression "d'interaction" habituel. (Notez qu'aucun des nouveaux paramètres, ni lui-même, n'est la même quantité représentée à l'origine par ces termes en ) $\varepsilon$ $(*).$

Observez comment apparaît à travers la variation des deux paramètres d'origine. Il capture la combinaison de (i) comment le coefficient de dépend de (à savoir, par ) et (ii) comment le coefficient de dépend de (à ). $\beta_{12}$ $x_1$ $x_2$ $\gamma_1$ $x_2$ $x_1$ $\delta_1$

Quelques conséquences

C'est une conséquence de cette analyse que si nous fixons tous les régresseurs sauf un, alors ( conditionnellement ) la réponse est toujours une fonction linéaire du régresseur restant. $Y$ Par exemple, si nous fixons la valeur de alors nous pouvons réécrire le modèle d'interaction comme $x_2,$ $(**)$

Y = (β_{0} + β_{2} x_{2}) + (β_{1} + β_{12} x_{2}) x_{1} + ε,

$Y = (\beta_0 + \beta_2 x_2) + (\beta_1 + \beta_{12} x_2) x_1 + \varepsilon,$

où l'ordonnée à l'origine est et la pente (c'est-à-dire le coefficient ) est Cela permet une description et un aperçu faciles. Géométriquement, la surface donnée par la fonction $\beta_0 + \beta_2 x_2$ $x_1$ $\beta_1 + \beta_2 x_2.$

f (x_{1}, x_{2}) = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2}

$f(x_1,x_2) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1x_2$

est réglé: lorsque nous le coupons parallèlement à l'un des axes de coordonnées, le résultat est toujours une ligne. (Cependant, la surface elle-même n'est pas plane sauf lorsque En effet, elle a partout une courbure gaussienne négative.) $\beta_{12}=0.$

Enfin, si notre espoir pour (a) ou (b) ne se concrétise pas, nous pourrions étendre le comportement fonctionnel du d' origine pour inclure des termes de second ordre ou plus. La même analyse montre que cela introduira des termes de la forme etc. dans le modèle. En ce sens, l' inclusion d'un terme d'interaction (produit) n'est que la première - et la plus simple - étape vers la modélisation des relations non linéaires entre la réponse et les régresseurs au moyen de fonctions polynomiales. $\beta_i$ $x_1^2,$ $x_2^2,$ $x_1x_2^2,$ $x_1^2x_2,$

Enfin, dans son manuel EDA (Addison-Wesley 1977), John Tukey a montré comment cette approche peut être mise en œuvre de manière beaucoup plus générale. Après avoir d'abord "ré-exprimé" (c'est-à-dire appliqué des transformations non linéaires appropriées) aux régresseurs et à la réponse, il arrive souvent que le modèle s'applique aux variables transformées ou, sinon, le modèle peuvent facilement être ajustés (en utilisant une analyse robuste des résidus). Cela permet à une grande variété de relations non linéaires d'être exprimées et interprétées comme des réponses conditionnellement linéaires. $(*)$ $(**)$

whuber
la source

Ceci est une belle réponse détaillée. Je vous remercie. À part, je continue de voir des références au livre de Tukey à venir sur ce site ... même si c'est si vieux. Il est peut-être temps de le lire.

ChilliProject

Dans la régression multiple, pourquoi les interactions sont-elles modélisées comme des produits, et pas autre chose, des prédicteurs?

Réponses:

Définitions et concepts

Une analyse

Quelques conséquences