Je veux détecter si la colinéarité est un problème dans ma régression OLS. Je comprends que les facteurs d'inflation de la variance et l'indice de condition sont deux mesures couramment utilisées, mais j'ai du mal à trouver quoi que ce soit de précis sur le bien-fondé de chaque approche, ou sur les scores qui devraient être.
Une source importante qui indique quelle approche adopter et / ou quels scores sont appropriés serait très utile.
Une question similaire a été posée à "Y a-t-il une raison de préférer une mesure spécifique de la multicolinéarité?" mais je suis idéalement après une référence que je peux citer.
Réponses:
Belsley, Kuh et Welsch est le texte à consulter pour ce genre de question. Ils incluent une discussion approfondie des diagnostics plus anciens dans une section intitulée "Perspective historique". Concernant VIF, ils écrivent
Au lieu d'analyser (ou ), FMB propose un examen attentif, contrôlé de la décomposition de la valeur Singulier . Ils le motivent en démontrant que le rapport des valeurs singulières les plus grandes aux plus petites est le nombre de conditions de et montrent comment le nombre de conditions fournit des limites (parfois serrées) sur la propagation des erreurs de calcul dans le calcul des estimations de régression. Ils tentent ensuite une décomposition approximative des variances des estimations des paramètres en composantes associées aux valeurs singulières. Le pouvoir de cette décomposition réside dans sa capacité (dans de nombreux cas) à révéler la natureR R−1 X X β^i de la colinéarité, plutôt que de simplement indiquer sa présence.
Quiconque a construit des modèles de régression avec des centaines de variables appréciera cette fonctionnalité! C'est une chose pour le logiciel de dire "vos données sont colinéaires, je ne peux pas continuer" ou même de dire "vos données sont colinéaires, je jette les variables suivantes". C'est tout à fait beaucoup plus utile pour lui de pouvoir dire "le groupe de variables cause des instabilités dans les calculs: voyez laquelle de ces variables vous pouvez faire sans ou considérer effectuer une analyse des principaux composants pour réduire leur nombre. "Xi1,…,Xik
En fin de compte, BKW recommande de diagnostiquer la colinéarité au moyen de
la source
Les facteurs d'inflation de la variance (VIF) sont faciles à comprendre. Régression de chacune de vos colonnes de matrice de conception sur toutes les autres, notez le de ce modèle, calculez , et c'est parti. Un VIF de 10 signifie que vous pouvez expliquer 90% de la variance d'un prédicteur en utilisant tous les autres régresseurs. Ceci est généralement utilisé comme règle générale pour la colinéarité.R2 1/(1−R2)
Cependant, les VIF, tels qu'ils sont généralement implémentés, ne peuvent pas vous renseigner sur la colinéarité avec l'interception, car l'interception est généralement silencieusement incluse dans ces régressions "auxiliaires". De plus, si un régresseur a un VIF élevé, vous ne savez pas immédiatement quels autres régresseurs sont responsables de la colinéarité. Vous auriez besoin de regarder des coefficients standardisés dans les régressions auxiliaires.
Les indices de condition et les proportions de décomposition de la colinéarité de Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics: Identifying Influential Data and Sources of Colinearity. John Wiley & Sons, 1980) sont beaucoup plus difficiles à comprendre. J'avais l'habitude de travailler avec ces dernières années, mais je n'essaierai pas de les expliquer ici sans avoir un rappel ;-)
Ces diagnostics ne permettent la détection colinéarité avec l'interception. Et vous pouvez étudier les proportions de décomposition de la colinéarité pour en déduire quels autres régresseurs sont responsables de la colinéarité d'un régresseur donné.
la source
Pour des références à citer largement disponibles, le livre Lointain à la page 117 fournit une règle empirique supérieure à 30 pour détecter les problèmes en fonction des nombres de conditions, et Une introduction à l'apprentissage statistique , page 101, dit que les valeurs VIF supérieures à 5 ou 10 indiquent un problème .
La façon dont vous la gérerez sera probablement plus importante que la méthode que vous utiliserez pour identifier la multicolinéarité.
la source