J'ai trouvé une référence dans un article qui va comme:
Selon Tabachnick et Fidell (1996), les variables indépendantes avec une corrélation bivariée supérieure à 0,70 ne devraient pas être incluses dans l'analyse de régression multiple.
Problème: J'ai utilisé dans un plan de régression multiple 3 variables corrélées> 0,80, VIF à environ 0,2 - 0,3, tolérance ~ 4 - 5. Je ne peux exclure aucune d'entre elles (prédicteurs et résultats importants). Lorsque j'ai régressé le résultat sur les 2 prédicteurs qui étaient corrélés à 0,80, ils sont restés à la fois significatifs, chacun prédisait des variances importantes, et ces deux mêmes variables ont la plus grande partie et les coefficients de corrélation semi-partiels parmi les 10 variables incluses (5 contrôles).
Question: Mon modèle est-il valide malgré des corrélations élevées? Toutes les références sont les bienvenues!
Merci pour vos réponses!
Je n'ai pas utilisé Tabachnick et Fidell comme guide, j'ai trouvé cette référence dans un article traitant de la colinéarité élevée entre les prédicteurs.
Donc, fondamentalement, j'ai trop peu de cas pour le nombre de prédicteurs dans le modèle (beaucoup de variables de contrôle catégoriques et codées fictivement - âge, ancienneté, sexe, etc.) - 13 variables pour 72 cas. L'indice de condition est ~ 29 avec tous les contrôles et ~ 23 sans eux (5 variables).
Je ne peux laisser tomber aucune variable ou utiliser l'analyse factorielle pour les combiner parce que, théoriquement, ils ont leur propre sens. Il est trop tard pour obtenir plus de données. Étant donné que je mène l'analyse dans SPSS, il serait peut-être préférable de trouver une syntaxe pour la régression des crêtes (même si je ne l'ai pas fait auparavant et que l'interprétation des résultats serait nouvelle pour moi).
Si cela importe, lorsque j'ai effectué une régression pas à pas, les 2 mêmes variables hautement corrélées sont restées les seuls prédicteurs significatifs du résultat.
Et je ne comprends toujours pas si les corrélations partielles qui sont élevées pour chacune de ces variables comptent pour expliquer pourquoi je les ai conservées dans le modèle (au cas où la régression de crête ne pourrait pas être effectuée).
Diriez-vous que le «diagnostic de régression: identification des données influentes et des sources de colinéarité / David A. Belsley, Edwin Kuh et Roy E. Welsch, 1980» serait utile pour comprendre la multicolinéarité? Ou d'autres références pourraient-elles être utiles?
Réponses:
Le problème clé n'est pas la corrélation mais la colinéarité (voir les travaux de Belsley, par exemple). Il est préférable de le tester en utilisant des indices de condition (disponibles dans
R
,SAS
et probablement d'autres programmes également. La corrélation n'est ni une condition nécessaire ni suffisante pour la colinéarité. Les indices de condition supérieurs à 10 (par Belsley) indiquent une colinéarité modérée, plus de 30 graves, mais cela dépend aussi sur quelles variables sont impliquées dans la colinéarité.Si vous trouvez une colinéarité élevée, cela signifie que vos estimations de paramètres sont instables. C'est-à-dire que de petits changements (parfois dans le 4ème chiffre significatif) dans vos données peuvent provoquer de grands changements dans vos estimations de paramètres (parfois même inverser leur signe). C'est une mauvaise chose.
Les remèdes sont 1) Obtenir plus de données 2) Supprimer une variable 3) Combiner les variables (par exemple avec les moindres carrés partiels) et 4) Effectuer une régression de crête, ce qui donne des résultats biaisés mais réduit la variance sur les estimations.
la source