Quels sont les avantages de différentes approches pour détecter la colinéarité?

11

Je veux détecter si la colinéarité est un problème dans ma régression OLS. Je comprends que les facteurs d'inflation de la variance et l'indice de condition sont deux mesures couramment utilisées, mais j'ai du mal à trouver quoi que ce soit de précis sur le bien-fondé de chaque approche, ou sur les scores qui devraient être.

Une source importante qui indique quelle approche adopter et / ou quels scores sont appropriés serait très utile.

Une question similaire a été posée à "Y a-t-il une raison de préférer une mesure spécifique de la multicolinéarité?" mais je suis idéalement après une référence que je peux citer.

kyrenia
la source
4
N'oubliez pas que la colinéarité est en grande partie une question de degré , donc même si vous trouvez un texte qui donne un bon chiffre citable, ce n'est pas quelque chose que vous devriez considérer comme une valeur de coupure pour "pas de problème" vs "nous avons un problème ".
Silverfish
4
@Silverfish donne de bons conseils. Belsley, Kuh et Welsch soulignent également que la colinéarité, même lorsqu'elle est présente, n'est pas nécessairement nuisible: vous devez déterminer si elle cause réellement un problème pour votre analyse.
whuber

Réponses:

11

Belsley, Kuh et Welsch est le texte à consulter pour ce genre de question. Ils incluent une discussion approfondie des diagnostics plus anciens dans une section intitulée "Perspective historique". Concernant VIF, ils écrivent

... Si nous supposons que le données ont été centrées et mis à l' échelle pour avoir une longueur unitaire, la matrice de corrélation est simplement . ...XRXX

Nous considérons . Les éléments diagonaux de , les , sont souvent appelés les facteurs d'inflation de la variance, , et leur valeur diagnostique découle de la relation où est le coefficient de corrélation multiple de régressé sur les autres variables explicatives. Clairement, un VIF élevé indique un proche de l'unité, et donc pointe vers la colinéarité. Cette mesure est donc d'une certaine utilité comme indication globale de colinéarité. Ses faiblesses, comme celles deR1=(XX)1R1riiVIFi

VIFi=11Ri2
Ri2XiRi2R, résident dans son incapacité à faire la distinction entre plusieurs dépendances proches coexistantes et dans l’absence de frontière significative pour distinguer les valeurs de VIF qui peuvent être considérées comme élevées et celles qui peuvent être considérées comme faibles.

Au lieu d'analyser (ou ), FMB propose un examen attentif, contrôlé de la décomposition de la valeur Singulier . Ils le motivent en démontrant que le rapport des valeurs singulières les plus grandes aux plus petites est le nombre de conditions de et montrent comment le nombre de conditions fournit des limites (parfois serrées) sur la propagation des erreurs de calcul dans le calcul des estimations de régression. Ils tentent ensuite une décomposition approximative des variances des estimations des paramètres en composantes associées aux valeurs singulières. Le pouvoir de cette décomposition réside dans sa capacité (dans de nombreux cas) à révéler la natureRR1XXβ^i de la colinéarité, plutôt que de simplement indiquer sa présence.

Quiconque a construit des modèles de régression avec des centaines de variables appréciera cette fonctionnalité! C'est une chose pour le logiciel de dire "vos données sont colinéaires, je ne peux pas continuer" ou même de dire "vos données sont colinéaires, je jette les variables suivantes". C'est tout à fait beaucoup plus utile pour lui de pouvoir dire "le groupe de variables cause des instabilités dans les calculs: voyez laquelle de ces variables vous pouvez faire sans ou considérer effectuer une analyse des principaux composants pour réduire leur nombre. "Xi1,,Xik

En fin de compte, BKW recommande de diagnostiquer la colinéarité au moyen de

... la double condition suivante:

  1. Une valeur singulière jugée avoir un indice de condition élevé, et qui est associée à
  2. Proportions de décomposition-variance élevées pour au moins deux variances de coefficient de régression estimées.

Le nombre d'indices de condition jugés importants (disons, supérieurs à ) dans (1) identifie le nombre de quasi-dépendances parmi les colonnes de la matrice de données , et les amplitudes de ces indices de condition élevée fournissent une mesure de leur "étanchéité relative". " De plus, la détermination en (2) de proportions de décomposition-variance importantes (disons, supérieures à ) associées à chaque indice de condition élevée identifie les variables impliquées dans la quasi-dépendance correspondante, et l'ampleur de ces proportions en conjonction avec la forte l'indice de condition fournit une mesure du degré auquel l'estimation de régression correspondante a été dégradée par la présence de colinéarité.30X0.5

whuber
la source
10
  • Les facteurs d'inflation de la variance (VIF) sont faciles à comprendre. Régression de chacune de vos colonnes de matrice de conception sur toutes les autres, notez le de ce modèle, calculez , et c'est parti. Un VIF de 10 signifie que vous pouvez expliquer 90% de la variance d'un prédicteur en utilisant tous les autres régresseurs. Ceci est généralement utilisé comme règle générale pour la colinéarité.R21/(1R2)

    Cependant, les VIF, tels qu'ils sont généralement implémentés, ne peuvent pas vous renseigner sur la colinéarité avec l'interception, car l'interception est généralement silencieusement incluse dans ces régressions "auxiliaires". De plus, si un régresseur a un VIF élevé, vous ne savez pas immédiatement quels autres régresseurs sont responsables de la colinéarité. Vous auriez besoin de regarder des coefficients standardisés dans les régressions auxiliaires.

  • Les indices de condition et les proportions de décomposition de la colinéarité de Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics: Identifying Influential Data and Sources of Colinearity. John Wiley & Sons, 1980) sont beaucoup plus difficiles à comprendre. J'avais l'habitude de travailler avec ces dernières années, mais je n'essaierai pas de les expliquer ici sans avoir un rappel ;-)

    Ces diagnostics ne permettent la détection colinéarité avec l'interception. Et vous pouvez étudier les proportions de décomposition de la colinéarité pour en déduire quels autres régresseurs sont responsables de la colinéarité d'un régresseur donné.

Stephan Kolassa
la source
Merci - très utile - êtes-vous par hasard au courant d'une citation pour le VIF supérieur à 10 règles de base ... Je peux trouver dans de nombreuses notes de conférence électronique, mais je ne trouve rien de publié qui dit que .. .
kyrenia
@kyrenia "supérieur à 10" est loin d'être le seul seuil que j'ai vu suggéré! Je me demande s'il y a des variations entre les domaines, ou simplement entre les auteurs.
Silverfish
3
@Silverfish Il y a certainement une variation entre les champs. On m'a dit que des concepteurs expérimentaux enseignaient qu'un VIF supérieur à devait être corrigé! Pour les études observationnelles, il devrait également y avoir une variation en fonction du nombre de régresseurs: plus il y en a, plus les VIF seront grands juste en raison des fluctuations aléatoires. Avec des centaines de variables dans de nombreux cas, vous n'aurez qu'à supporter des VIF de ou plus. Vraisemblablement, il y a aussi suffisamment de données dans de tels cas pour compenser une telle variation de l'inflation. 1002100
whuber
@whuber Merci pour cela. C'est une observation très intéressante et très pertinente pour la question posée par le PO: étant donné l'importance "de second rang" des commentaires dans le système StackExchange, je pense que vous devriez envisager d'incorporer cela dans votre excellente réponse.
Silverfish
6

Pour des références à citer largement disponibles, le livre Lointain à la page 117 fournit une règle empirique supérieure à 30 pour détecter les problèmes en fonction des nombres de conditions, et Une introduction à l'apprentissage statistique , page 101, dit que les valeurs VIF supérieures à 5 ou 10 indiquent un problème .

La façon dont vous la gérerez sera probablement plus importante que la méthode que vous utiliserez pour identifier la multicolinéarité.

EdM
la source