Comment gérer une forte corrélation entre les prédicteurs dans la régression multiple?

18

J'ai trouvé une référence dans un article qui va comme:

Selon Tabachnick et Fidell (1996), les variables indépendantes avec une corrélation bivariée supérieure à 0,70 ne devraient pas être incluses dans l'analyse de régression multiple.

Problème: J'ai utilisé dans un plan de régression multiple 3 variables corrélées> 0,80, VIF à environ 0,2 - 0,3, tolérance ~ 4 - 5. Je ne peux exclure aucune d'entre elles (prédicteurs et résultats importants). Lorsque j'ai régressé le résultat sur les 2 prédicteurs qui étaient corrélés à 0,80, ils sont restés à la fois significatifs, chacun prédisait des variances importantes, et ces deux mêmes variables ont la plus grande partie et les coefficients de corrélation semi-partiels parmi les 10 variables incluses (5 contrôles).

Question: Mon modèle est-il valide malgré des corrélations élevées? Toutes les références sont les bienvenues!


Merci pour vos réponses!

Je n'ai pas utilisé Tabachnick et Fidell comme guide, j'ai trouvé cette référence dans un article traitant de la colinéarité élevée entre les prédicteurs.

Donc, fondamentalement, j'ai trop peu de cas pour le nombre de prédicteurs dans le modèle (beaucoup de variables de contrôle catégoriques et codées fictivement - âge, ancienneté, sexe, etc.) - 13 variables pour 72 cas. L'indice de condition est ~ 29 avec tous les contrôles et ~ 23 sans eux (5 variables).

Je ne peux laisser tomber aucune variable ou utiliser l'analyse factorielle pour les combiner parce que, théoriquement, ils ont leur propre sens. Il est trop tard pour obtenir plus de données. Étant donné que je mène l'analyse dans SPSS, il serait peut-être préférable de trouver une syntaxe pour la régression des crêtes (même si je ne l'ai pas fait auparavant et que l'interprétation des résultats serait nouvelle pour moi).

Si cela importe, lorsque j'ai effectué une régression pas à pas, les 2 mêmes variables hautement corrélées sont restées les seuls prédicteurs significatifs du résultat.

Et je ne comprends toujours pas si les corrélations partielles qui sont élevées pour chacune de ces variables comptent pour expliquer pourquoi je les ai conservées dans le modèle (au cas où la régression de crête ne pourrait pas être effectuée).

Diriez-vous que le «diagnostic de régression: identification des données influentes et des sources de colinéarité / David A. Belsley, Edwin Kuh et Roy E. Welsch, 1980» serait utile pour comprendre la multicolinéarité? Ou d'autres références pourraient-elles être utiles?

Ander
la source
2
Pour un exemple explicite de cette situation, voir l'analyse de 10 IV sur stats.stackexchange.com/a/14528 . Ici, tous les IV sont fortement corrélés (environ 60%). Mais si vous les excluiez tous, vous n'auriez plus rien! Il arrive souvent que vous ne puissiez supprimer aucune de ces variables. Cela rend la recommandation T&F intenable.
whuber
En effet, il y a un certain nombre de déclarations dans Tabachnick et Fidell que je considérerais comme au moins quelque peu douteuses ... ce n'est pas parce que quelque chose est imprimé dans un livre que cela a toujours du sens.
Glen_b -Reinstate Monica

Réponses:

20

Le problème clé n'est pas la corrélation mais la colinéarité (voir les travaux de Belsley, par exemple). Il est préférable de le tester en utilisant des indices de condition (disponibles dans R, SASet probablement d'autres programmes également. La corrélation n'est ni une condition nécessaire ni suffisante pour la colinéarité. Les indices de condition supérieurs à 10 (par Belsley) indiquent une colinéarité modérée, plus de 30 graves, mais cela dépend aussi sur quelles variables sont impliquées dans la colinéarité.

Si vous trouvez une colinéarité élevée, cela signifie que vos estimations de paramètres sont instables. C'est-à-dire que de petits changements (parfois dans le 4ème chiffre significatif) dans vos données peuvent provoquer de grands changements dans vos estimations de paramètres (parfois même inverser leur signe). C'est une mauvaise chose.

Les remèdes sont 1) Obtenir plus de données 2) Supprimer une variable 3) Combiner les variables (par exemple avec les moindres carrés partiels) et 4) Effectuer une régression de crête, ce qui donne des résultats biaisés mais réduit la variance sur les estimations.

Peter Flom - Réintégrer Monica
la source
Tabachnick et Fidell ont écrit un joli livre multivarié pour les sciences sociales. Ce ne sont pas des statististiciens mais leur connaissance du multivarié est bonne. Mais je pense qu'ils peuvent créer des règles de base pour simplifier et pourraient manquer des subtilités statistiques. Je me fierais donc davantage à ce que Peter dit dans ses réponses qu'à son article.
Michael R. Chernick
Merci @MichaelChernick. J'ai en fait écrit ma thèse sur les diagnostics de colinéarité pour la régression multiple.
Peter Flom - Réintègre Monica
Je suppose que vous êtes aussi vieux que moi et donc votre travail est venu après le travail de Belsley, Kuh et Welsch and Cook. Je sais que le travail de Cook portait principalement sur d'autres problèmes de diagnostic (effet de levier et non-normalité), mais a-t-il fait quelque chose sur la multicolinéarité? Bien sûr, le concept de régression des crêtes remonte même avant mon époque
Michael R. Chernick
1
@Peter Flom: Pourquoi la corrélation n'est-elle ni une condition nécessaire ni suffisante pour la colinéarité? Faites-vous référence à une corrélation non linéaire?
Julian
5
Ce n'est pas nécessaire car, s'il y a un grand nombre de variables, toutes les paires ne peuvent être que légèrement corrélées mais la somme d'entre elles est parfaitement colinéaire. Ce n'est pas suffisant car il existe des cas où une corrélation assez élevée ne donne pas d'indices de colinéarité par condition gênants
Peter Flom - Rétablir Monica