J'évalue actuellement la multicolinéarité dans mes jeux de données.
Quelles valeurs seuil de VIF et indice de condition en dessous / au-dessus suggèrent un problème?
VIF: J'ai entendu dire que VIF est un problème.
Après avoir supprimé deux variables problématiques, VIF est pour chaque variable. Les variables nécessitent-elles plus de traitement ou ce VIF semble-t-il correct?
Indice de condition: J'ai entendu dire qu'un indice de condition (IC) de 30 ou plus est un problème. Mon CI le plus élevé est 16,66. Est-ce un problème?
Autres issues:
- Y a-t-il d'autres choses à faire / à ne pas faire qui doivent être prises en compte?
- Y a-t-il d'autres choses que je dois garder à l'esprit?
multiple-regression
linear-model
multicollinearity
vif
ayush biyani
la source
la source
Réponses:
Le problème de la multicolinéarité est bien étudié dans la plupart des manuels d'économétrie. De plus, il y a un bon article dans wikipedia qui résume en fait la plupart des problèmes clés.
En pratique, on commence à garder à l'esprit le problème de la multicolinéarité s'il provoque des signes visuels d'instabilité des paramètres (la plupart d'entre eux sont impliqués par une invertabilité non (mauvaise) de la matrice ):XTX
probablement pas théoriquement, car il peut arriver (et c'est généralement le cas) que toutes les variables soient présentes dans le modèle. L'exclusion de variables pertinentes (problème de variable omise) entraînera de toute façon des estimations de paramètres biaisées et incohérentes. D'un autre côté, vous pouvez être obligé d'inclure toutes les variables de focus simplement parce que votre analyse est basée sur elle. Dans l'approche d'exploration de données, vous êtes plus technique dans la recherche du meilleur ajustement.
Gardez donc à l'esprit les alternatives (que j'utiliserais moi-même):
D'autres astuces se trouvent dans l'article wiki noté ci-dessus.
la source
Je crois que Belsely a dit que l'IC supérieur à 10 indique un problème modéré possible, tandis que plus de 30 est plus grave.
En outre, cependant, vous devez examiner la variance partagée par des ensembles de variables dans les indices de condition élevée. Il y a un débat (ou était, la dernière fois que j'ai lu cette littérature) sur la question de savoir si la colinéarité qui impliquait une variable et l'ordonnée à l'origine était problématique ou non, et si le centrage de la variable incriminée a éliminé le problème, ou l'a simplement déplacé ailleurs.
la source