VIF, indice de condition et valeurs propres

15

J'évalue actuellement la multicolinéarité dans mes jeux de données.

Quelles valeurs seuil de VIF et indice de condition en dessous / au-dessus suggèrent un problème?

VIF: J'ai entendu dire que VIF est un problème.dix

Après avoir supprimé deux variables problématiques, VIF est pour chaque variable. Les variables nécessitent-elles plus de traitement ou ce VIF semble-t-il correct?3,96

Indice de condition: J'ai entendu dire qu'un indice de condition (IC) de 30 ou plus est un problème. Mon CI le plus élevé est 16,66. Est-ce un problème?

Autres issues:

  • Y a-t-il d'autres choses à faire / à ne pas faire qui doivent être prises en compte?
  • Y a-t-il d'autres choses que je dois garder à l'esprit?
ayush biyani
la source
1
Veuillez clarifier la question. En particulier, voici quelques commentaires antérieurs: Par @chl - "vous devriez envisager d'écrire des questions claires (elles sont intéressantes par elles-mêmes), avec un problème définitif, et réserver des commentaires pour des informations supplémentaires pertinentes pour votre question d'origine, pas suivre- up ". Par @shane - "Concernant cette question actuelle: elle pourrait aussi être améliorée car elle pose de nombreuses questions différentes sans fil conducteur clair. Êtes-vous intéressé par la multicolinéarité en général? Ou êtes-vous intéressé par VIF? Il vaudrait mieux les décomposer pour plus de clarté."

Réponses:

5

Le problème de la multicolinéarité est bien étudié dans la plupart des manuels d'économétrie. De plus, il y a un bon article dans wikipedia qui résume en fait la plupart des problèmes clés.

En pratique, on commence à garder à l'esprit le problème de la multicolinéarité s'il provoque des signes visuels d'instabilité des paramètres (la plupart d'entre eux sont impliqués par une invertabilité non (mauvaise) de la matrice ):XTX

  1. changements importants dans les estimations des paramètres lors de l'exécution de régressions glissantes ou d'estimations sur des sous-échantillons plus petits des données
  2. en faisant la moyenne des estimations des paramètres, ces dernières peuvent devenir insignifiantes (par les tests ) même si le test régression indésirable montre une signification conjointe élevée des résultatstF
  3. La statistique VIF (valeur moyenne des régressions auxiliaires) dépend simplement de vos exigences au niveau de tolérance, la plupart des suggestions pratiques placent une tolérance acceptable à moins de 0,2 ou 0,1, ce qui signifie que les moyennes correspondantes des régressions auxiliaires devraient être supérieures à 0,9 ou 0,8 à détecter le problème. Ainsi, VIF doit être plus grand que les valeurs 10 et 5 de la règle empirique. Dans les petits échantillons (moins de 50 points), 5 est préférable, dans les plus grands, vous pouvez aller à des valeurs plus grandes. R2
  4. L'indice de condition est une alternative à VIF dans votre cas, ni VIF ni CI ne montrent que le problème est résolu, vous pouvez donc être satisfait statistiquement de ce résultat, mais ...

probablement pas théoriquement, car il peut arriver (et c'est généralement le cas) que toutes les variables soient présentes dans le modèle. L'exclusion de variables pertinentes (problème de variable omise) entraînera de toute façon des estimations de paramètres biaisées et incohérentes. D'un autre côté, vous pouvez être obligé d'inclure toutes les variables de focus simplement parce que votre analyse est basée sur elle. Dans l'approche d'exploration de données, vous êtes plus technique dans la recherche du meilleur ajustement.

Gardez donc à l'esprit les alternatives (que j'utiliserais moi-même):

  1. obtenir plus de points de données (rappelez-vous que les exigences VIF sont plus petites pour un ensemble de données plus important et que les variables explicatives, si elles varient lentement, peuvent changer pour certains points cruciaux dans le temps ou en coupe)
  2. rechercher des facteurs lattents à travers les composantes principales (ces dernières sont des combinaisons orthogonales donc pas multi-colinéaires par la construction, impliquent plus de toutes les variables explicatives)
  3. régression de crête (elle introduit un petit biais dans les estimations des paramètres, mais les rend très stables)

D'autres astuces se trouvent dans l'article wiki noté ci-dessus.

Dmitrij Celov
la source
3

Je crois que Belsely a dit que l'IC supérieur à 10 indique un problème modéré possible, tandis que plus de 30 est plus grave.

En outre, cependant, vous devez examiner la variance partagée par des ensembles de variables dans les indices de condition élevée. Il y a un débat (ou était, la dernière fois que j'ai lu cette littérature) sur la question de savoir si la colinéarité qui impliquait une variable et l'ordonnée à l'origine était problématique ou non, et si le centrage de la variable incriminée a éliminé le problème, ou l'a simplement déplacé ailleurs.

Peter Flom - Réintégrer Monica
la source