La corrélation entre les variables dans une interaction est-elle importante?

Il y a une raison pour laquelle votre consultant en statistique n'a pas pu expliquer pourquoi l'introduction d'une interaction dans un modèle linéaire pourrait nuire à la structure de corrélation: cela dépend des circonstances et il n'est généralement pas vrai qu'il y ait un effet négatif. Regardez simplement les ensembles de données montrés dans les matrices de nuages de points ci-dessous pour voir toutes les différentes façons dont deux variables peuvent être liées à leurs produits.

Le reste de cet article explique comment ces chiffres ont été produits et pourraient donner un meilleur aperçu de la situation.

Commençons par l'évidence: écrire $x_3=x_1x_2,$ vous avez une régression multiple impliquant les trois variables $x_1, x_2, x_3.$ L’existence ou non de problèmes de colinéarité dépend des relations linéaires entre les $x_i.$ C'est universel.

La particularité de ce problème est la relation entre $x_3$ et l'autre $x_i;$ à savoir que $x_3 = x_1x_2.$ Ainsi, si quelqu'un vous a conseillé de faire attention, cela doit être dû à une attente que cette relation multiplicative entraîne mathématiquement une sorte de multicolinéarité entre tous les $x_i.$

Ce n'est tout simplement pas le cas, comme cela peut être démontré en présentant tous les modèles possibles. Je ne veux pas vous épuiser avec la pédanterie de passer par toutes les possibilités, alors laissez-moi juste esquisser quelques-unes des plus illustratives. L'outil de base que je vais utiliser dans cette étude est l'observation que la corrélation entre toutes les variables $x_1, x_2$ reste inchangé lorsque le $x_i$ subissent séparément des transformations linéaires. Autrement dit, nous pouvons librement multiplier l'une ou l'autre variable par des constantes et ajouter d'autres constantes aux résultats sans modifier la corrélation. Cependant, ces opérations peuvent modifier profondément les corrélations entre $x_1x_2$ et $x_i.$

Produit (presque) constant

Il est possible pour $x_1x_2$ être constant (ce qui, quand une régression comprend une constante, sera problématique). Pour créer un exemple, générez simplement des valeurs non nulles pour $x_1$ et définir $x_2 = c/x_1.$ Leur produit est égal $c$ par construction.

Vous pouvez perturber cet exemple en modifiant $c\ne 0$ dans une variable aléatoire avec des valeurs proches de $c.$ Faire cela introduira une petite corrélation entre le $x_i$ et leur produit, mais pas beaucoup. Voici, par exemple, un exemple où $x_1$ est tiré d'un Gamma $(5)$ distribution et $c$ a une distribution normale avec une moyenne $1$ et l'écart-type de seulement $1/100:$

Bien que le $x_i$ avoir une corrélation de $\rho_{1\cdot 2}=-0.87$ dans cet exemple, leurs corrélations avec $x_1x_2$ sont seulement $-0.06$ et $0.00.$

Par conséquent, bien qu'il puisse y avoir un peu de problème en utilisant les deux $x_1$ et $x_2$ dans un modèle linéaire, y compris $x_1x_2$ est peu susceptible de l'aggraver.

Produit non constant

Pour rendre les calculs plus clairs, nous pouvons aussi bien supposer que $x_i$ avoir une variance d'unité. Soit la variance de $x_1x_2$ être $\tau^2$ et écris $\rho_{12\cdot i}$ pour les corrélations entre $x_1x_2$ et $x_i.$ Calculons ce qui arrive à ces corrélations lorsque les constantes $c_i$ sont soustraits de la $x_i.$ Parce que le $x_i$ jouer des rôles parfaitement symétriques (juste échanger " $1$ " pour " $2$ "dans les index), il suffit de calculer la corrélation avec $x_1:$

\begin{matrix} (*) & \begin{aligned} Cor ((X_{1} - c_{1}) (X_{2} - c_{2}), X_{1}) & = \frac{Cov ((X_{1} - c_{1}) (X_{2} - c_{2}), X_{1})}{\sqrt{Var (X_{1} - c_{1}) (X_{2} - c_{2}) Var X_{1}}} \\ = \frac{Cov (X_{1} X_{2} - c_{2} X_{1} - c_{1} X_{2} + c_{1} c_{2}, X_{1})}{\sqrt{Var (X_{1} X_{2} - c_{1} X_{2} - c_{2} X_{1} + c_{1} c_{2})}} \\ = \frac{τ ρ_{12 \cdot 1} - c_{2} - c_{1} ρ_{1 \cdot 2}}{\sqrt{τ^{2} - c_{1} ρ_{1 \cdot 2} - c_{2} - 2 c_{1} ρ_{12 \cdot 2} - 2 c_{2} ρ_{12 \cdot 1} + 2 c_{1} c_{2} ρ_{1 \cdot 2}}} . \end{aligned} \end{matrix}

$\eqalign{ \operatorname{Cor}((x_1-c_1)(x_2-c_2), x_1) &= \frac{\operatorname{Cov} ((x_1-c_1)(x_2-c_2), x_1)}{\sqrt{\operatorname{Var}{(x_1-c_1)(x_2-c_2)}\operatorname{Var}{x_1}}} \\ &= \frac{\operatorname{Cov} (x_1x_2 - c_2x_1 - c_1x_2+c_1c_2, x_1)}{\sqrt{\operatorname{Var}(x_1x_2 - c_1x_2 - c_2x_1 + c_1c_2)}} \\ &= \frac{\tau\rho_{12\cdot 1}-c_2-c_1\rho_{1\cdot 2}}{\sqrt{\tau^2 - c_1\rho_{1\cdot 2} - c_2 - 2c_1\rho_{12\cdot 2} - 2c_2\rho_{12\cdot 1} + 2c_1c_2\rho_{1\cdot 2}}}.\tag{*} }$

Aucune corrélation avec le produit

Quelle que soit la corrélation entre le $x_i$ pourrait être, nous pouvons choisir $(c_1,c_2)$ pour rendre le produit non corrélé avec le $x_i.$

D'après l'analyse qui précède, cet objectif sera atteint lorsque le numérateur de $(*)$ est nul pour $i=1,2:$

{\begin{matrix} 0 = τ ρ_{12 \cdot 1} - c_{2} - c_{1} ρ_{1 \cdot 2} \\ 0 = τ ρ_{12 \cdot 2} - c_{1} - c_{2} ρ_{1 \cdot 2} \end{matrix}

$\left\{\matrix{0 = \tau\rho_{12\cdot 1} -c_2 - c_1\rho_{1\cdot 2} \\ 0 = \tau\rho_{12\cdot 2} -c_1 - c_2\rho_{1\cdot 2}}\right.$

Quand $\rho_{1\cdot 2}^2 \ne 1,$ ce système d'équations $(c_1,c_2)$ a une solution unique. Voici, par exemple, une matrice de nuage de points d'un ensemble de données de $100$ valeurs dans lesquelles $(x_i)$ avoir une distribution normale bivariée avec corrélation $\rho_{1\cdot 2}=-0.99$ mais le $x_i$ avoir une corrélation nulle avec $x_1x_2$ :

Parce que $x_1x_2$ est sans corrélation avec ("orthogonal à") à la fois le $x_i,$ l'introduire dans n'importe quel modèle linéaire ne créera aucun problème.

Comme le suggère cet exemple, cette situation est la norme car elle a tendance à se produire lorsque le $x_i$ ont été centrés. En d'autres termes, si vous centrez vos variables avant de créer une interaction, vous n'aurez généralement pas de problèmes avec une colinéarité supplémentaire.

De fortes corrélations avec le produit

Les équations $(*)$ peut également être résolu pour produire de fortes corrélations. Nous n'avons même pas besoin d'aller jusqu'à résoudre les équations exactement (ce qui est difficile), car il existe un raccourci simple: en redimensionnant l'un des $x_i$ pour être proche de zéro et en y ajoutant une constante, nous ne changerons pas leur corrélation, mais alors le produit sera presque égal à un multiple de l'autre des $x_i,$ les rendant ainsi fortement corrélés.

Voici un exemple basé sur le précédent. Dans cet exemple, $x_2$ a été changé en $1 + x_2 / 100$ pour que $x_1x_2$ est approximativement égal à $x_1,$ ce qui en fait fortement positivement corrélé avec $x_1x_2.$ En effet, $\rho_{12\cdot 1} = 0.999878$ et $\rho_{12\cdot 2} = -0.9898793$ dans cet exemple.

whuber
la source

Parfait! Merci pour l'explication approfondie :)

hlinee

La corrélation entre les variables dans une interaction est-elle importante?

Réponses:

Produit (presque) constant

Produit non constant

Aucune corrélation avec le produit

De fortes corrélations avec le produit