Lorsque nous travaillons avec de nombreuses variables d'entrée, nous nous préoccupons souvent de la multicolinéarité . Il existe un certain nombre de mesures de la multicolinéarité qui sont utilisées pour détecter, réfléchir et / ou communiquer la multicolinéarité. Voici quelques recommandations courantes:
- Le multiple pour une variable particulière
- La tolérance, , pour une variable particulière
- Le facteur d'inflation de la variance, , pour une variable particulière
Le numéro de condition de la matrice de conception dans son ensemble:
(Il y a d'autres options discutées dans l'article Wikipedia, et ici sur SO dans le contexte de R.)
Le fait que les trois premiers soient parfaitement fonctionnels les uns des autres suggère que le seul avantage net possible entre eux serait psychologique. D'un autre côté, les trois premiers vous permettent d'examiner les variables individuellement, ce qui pourrait être un avantage, mais j'ai entendu dire que la méthode du nombre de conditions est considérée comme la meilleure.
- Est-ce vrai? Le mieux pour quoi?
- Le numéro de condition est-il une fonction parfaite des ? (Je pense que ce serait.)
- Les gens trouvent-ils que l'un d'eux est le plus facile à expliquer? (Je n'ai jamais essayé d'expliquer ces chiffres en dehors des cours, je donne juste une description lâche et qualitative de la multicolinéarité.)
la source
Réponses:
À la fin des années 1990, j'ai fait ma thèse sur la colinéarité.
Ma conclusion était que les indices de condition étaient les meilleurs.
La raison principale était que, plutôt que de regarder des variables individuelles , cela vous permet de regarder des ensembles de variables. Puisque la colinéarité est fonction d'ensembles de variables, c'est une bonne chose.
De plus, les résultats de mon étude de Monte Carlo ont montré une meilleure sensibilité à la colinéarité problématique, mais j'ai depuis longtemps oublié les détails.
Pour en savoir plus à ce sujet, consultez les livres de David Belsley. Ou, si vous le voulez vraiment, vous pouvez obtenir ma thèse Diagnostic de multicolinéarité pour la régression multiple: une étude de Monte Carlo
la source