Gérer les régresseurs corrélés

23

Dans une régression linéaire multiple avec des régresseurs fortement corrélés, quelle est la meilleure stratégie à utiliser? Est-ce une approche légitime d'ajouter le produit de tous les régresseurs corrélés?

Ηλίας
la source
1
Je suis désolé de voir que la réponse de @ Suncoolsu a été supprimée. Elle et les commentaires qui ont suivi ont clarifié une différence entre la multicolinéarité et le mauvais conditionnement. En outre, dans un commentaire, Suncoolsu a souligné comment la normalisation préliminaire peut aider à la régression polynomiale. S'il arrivait à réapparaître, je voterais pour ;-).
whuber
@ Ηλίας: Le produit est susceptible d'être instable dans de nombreuses applications. Il peut être en proie à de nombreux zéros si les régresseurs individuels ont des zéros; sa valeur absolue devrait présenter une forte asymétrie positive, donnant lieu à des points de levier élevés; il pourrait amplifier les données périphériques, en particulier les valeurs aberrantes simultanées, ajoutant encore à leur effet de levier. Il pourrait également être assez difficile à interpréter, surtout si les régresseurs sont déjà des ré-expressions des variables d'origine (comme les journaux ou les racines).
whuber

Réponses:

13

Les principaux composants ont beaucoup de sens ... mathématiquement. Cependant, je me méfierais simplement d'utiliser une astuce mathématique dans ce cas et d'espérer que je n'ai pas besoin de penser à mon problème.

Je recommanderais de réfléchir un peu au type de prédicteurs dont je dispose, à la variable indépendante, à la raison pour laquelle mes prédicteurs sont corrélés, si certains de mes prédicteurs mesurent réellement la même réalité sous-jacente (si oui, si je peux simplement travailler avec un mesure unique et lequel de mes prédicteurs serait le mieux pour cela), pour quoi je fais l'analyse - si je ne suis pas intéressé par l'inférence, seulement par la prédiction, alors je pourrais réellement laisser les choses telles qu'elles sont, aussi longtemps que l'avenir les valeurs des prédicteurs sont similaires aux précédentes.

S. Kolassa - Rétablir Monica
la source
4
Entièrement d'accord, +1. Mais la caractérisation de l'ACP comme une «astuce mathématique» la dénigre injustement, à mon humble avis. Si vous êtes d'accord (je ne suis pas sûr que vous le fassiez) que la somme ou la moyenne de groupes de régresseurs, comme le suggère Srikant, serait acceptable, alors l'ACP devrait être tout aussi acceptable et cela améliore généralement l'ajustement. De plus, les principaux composants peuvent fournir un aperçu des groupes de prédicteurs qui sont corrélés et de la façon dont ils le sont: c'est un excellent outil pour la réflexion que vous préconisez.
whuber
2
@whuber, je vois et suis d'accord avec votre point, et je ne veux pas dénigrer PCA, donc définitivement +1. Je voulais juste souligner que l'utilisation aveugle de l'APC sans regarder et penser au problème sous-jacent (que personne ici ne préconise) me laisserait un mauvais pressentiment ...
S. Kolassa - Reinstate Monica
11

Vous pouvez utiliser des composants principaux ou une régression d'arête pour résoudre ce problème. D'un autre côté, si vous avez deux variables qui sont suffisamment corrélées pour causer des problèmes avec l'estimation des paramètres, alors vous pourriez presque certainement supprimer l'une des deux sans perdre beaucoup en termes de prédiction - parce que les deux variables portent les mêmes informations . Bien sûr, cela ne fonctionne que lorsque le problème est dû à deux indépendants hautement corrélés. Lorsque le problème implique plus de deux variables qui sont ensemble presque colinéaires (dont deux ne peuvent avoir que des corrélations modérées), vous aurez probablement besoin de l'une des autres méthodes.

Brett
la source
2
(+1) Maintenant, le problème est que l'OP n'a pas indiqué combien de variables entrent dans le modèle, car dans le cas où elles sont nombreuses, il pourrait être préférable de faire à la fois le retrait et la sélection des variables, par exemple par le critère élastique (qui est une combinaison pénalités de Lasso et Ridge).
chl
3

Voici une autre pensée qui s'inspire de la réponse de Stephan :

Si certains de vos régresseurs corrélés sont significativement liés (par exemple, ce sont des mesures différentes de l'intelligence, c'est-à-dire verbales, mathématiques, etc.), vous pouvez créer une seule variable qui mesure la même variable en utilisant l'une des techniques suivantes:

  • Additionner les régresseurs (approprié si les régresseurs sont des composants d'un tout, par exemple, QI verbal + QI mathématique = QI global)

  • Moyenne des régresseurs (appropriée si les régresseurs mesurent la même construction sous-jacente, par exemple, la taille de la chaussure gauche, la taille de la chaussure droite pour mesurer la longueur des pieds)

  • Analyse factorielle (pour tenir compte des erreurs de mesure et pour extraire un facteur latent)

Vous pouvez ensuite supprimer tous les régresseurs corrélés et les remplacer par la variable qui ressort de l'analyse ci-dessus.

Communauté
la source
1
Cela a du sens si les régresseurs sont tous mesurés sur la même échelle. En psychologie, diverses sous-échelles sont souvent mesurées à différentes échelles (et toujours corrélées), donc une somme ou une moyenne pondérée (qui est vraiment la même ici) serait appropriée. Et bien sûr, on pourrait considérer que l'ACP fournit exactement ce type de pondération en calculant des axes de variance maximale.
S.Kolassa - Rétablir Monica
2

J'étais sur le point de dire à peu près la même chose que Stephan Kolassa ci-dessus (alors j'ai voté pour sa réponse). J'ajouterais seulement que parfois la multicolinéarité peut être due à l'utilisation de variables étendues qui sont toutes fortement corrélées avec une certaine mesure de taille, et les choses peuvent être améliorées en utilisant des variables intensives, c'est-à-dire en divisant tout par une certaine mesure de taille. Par exemple, si vos unités sont des pays, vous pouvez les diviser par population, zone ou PNB, selon le contexte.

Oh - et pour répondre à la deuxième partie de la question d'origine: je ne peux penser à aucune situation où ajouter le produit de tous les régresseurs corrélés serait une bonne idée. Comment cela aiderait-il? Qu'est-ce que cela signifierait?

un arrêt
la source
Mon idée initiale était d'ajouter de prendre en compte l'interaction par paire des régresseurs
Ηλίας
C'est souvent une bonne idée de prendre en compte l'interaction par paire. Mais pas tous: vous devez penser à ce qui a du sens!
kjetil b halvorsen
1

Je ne suis pas un expert en la matière, mais ma première pensée serait d'exécuter une analyse en composantes principales sur les variables prédictives, puis d'utiliser les composantes principales résultantes pour prédire votre variable dépendante.

Mike Lawrence
la source
kk
p
@chl Bon point. Mais comme les composants principaux sont des combinaisons linéaires, il est simple (bien que parfois un peu pénible) de composer le modèle de régression ajusté (= une transformation linéaire) avec la projection sur les composants (= une autre transformation linéaire) pour obtenir un modèle linéaire interprétable impliquant toutes les variables d'origine. Cela s'apparente un peu aux techniques d'orthogonalisation. Il faut également noter que les dernières propositions de Srikant (additionner ou faire la moyenne des régresseurs) se rapprochent essentiellement du vecteur propre principal tout en induisant des difficultés explicatives similaires.
whuber
@whuber Oui, je suis d'accord avec vos deux points. J'ai largement utilisé la régression PLS et le CCA, donc dans ce cas, nous devons traiter avec des combinaisons linéaires des deux côtés (st. Une covariance max. Ou des critères de corrélation); avec un grand nombre de prédicteurs, interpréter les vecteurs canoniques est pénible, donc nous regardons simplement les variables les plus contributives. Maintenant, je peux imaginer qu'il n'y a pas tellement de prédicteurs pour que tous vos arguments (@Stephan, @Mike) aient du sens.
chl
-1

X

xijstandardized=xijx.j¯sj

Ce n'est pas un remède, mais certainement un pas dans la bonne direction.

suncoolsu
la source
8
Les transformations linéaires (comme celles-ci) ne modifient jamais les coefficients de corrélation. L'objectif de la normalisation est d'améliorer le conditionnement de la matrice normale.
whuber
1
La normalisation des variables n'affectera pas les corrélations entre les variables indépendantes et ne "réduira pas l'effet de corrélation" de quelque manière que ce soit à laquelle je puisse penser en ce qui concerne ce problème.
Brett
2
@Brett, un exemple typique où la normalisation est utile est la régression polynomiale . Il est toujours recommandé de standardiser les régresseurs. La normalisation ne change pas la matrice de corrélation, mais rend la matrice var cov (qui est maintenant la matrice de corrélation) bien tenue (appelée conditionnement par @whuber pointant vers le numéro de condition de la matrice, à mon humble avis).
suncoolsu
D'accord. Le centrage est utile lors de la saisie de termes d'ordre supérieur, comme des termes polynomiaux ou d'interaction. Cela ne semble pas être le cas ici et ne résoudra pas le problème des prédicteurs corrélés.
Brett
Je l'ai supprimé parce que je ne voulais pas confondre les gens avec une mauvaise réponse. Les modérateurs l'ont probablement soulevé à nouveau.
suncoolsu