Je travaille sur un projet de modélisation prédictive ces jours-ci: essayer d'apprendre un modèle et faire des prédictions en temps réel sur la base du modèle que j'ai appris hors ligne.
J'ai commencé à utiliser la régression de crête récemment, car j'ai lu que la régularisation peut aider à réduire l'effet de la multicolinéarité.
Cependant, j'ai lu ce blog aujourd'hui. Je suis totalement confus maintenant. Selon ce blog, la multicolinéarité ne nuit pas autant au pouvoir prédictif d'un modèle.
Donc, au final, la multicolinéarité est-elle un problème ou non?
Réponses:
C'est un problème pour l'inférence causale - ou plutôt, cela indique des difficultés dans l'inférence causale - mais ce n'est pas un problème particulier pour la prédiction / prévision (à moins qu'il ne soit si extrême qu'il empêche la convergence du modèle ou entraîne des matrices singulières, et alors vous n'obtiendrez pas prédictions de toute façon). C'est aussi, je pense, le sens de ce billet de blog. Il semble que vous insistiez sur une réponse oui ou non lorsque la réponse est que cela dépend. Voici de quoi cela dépend et pourquoi on peut au moins dire que la multicolinéarité (non parfaite) n'est jamais une raison pour supprimer une variable d'un modèle - tous les problèmes que la multicolinéarité indique ne disparaîtront pas parce que vous avez supprimé une variable et arrêté voir la colinéarité.
Les prédicteurs qui sont fortement corrélés entre eux ne font tout simplement pas un aussi bon travail d'amélioration de vos prédictions qu'ils le feraient s'ils n'étaient pas colinéaires, mais toujours corrélés séparément avec la variable de résultat; ni l'un ni l'autre ne fait beaucoup plus de travail que l'autre ne le fait déjà et le ferait de toute façon. Peut-être qu'ils sont si fortement liés les uns aux autres parce qu'ils capturent essentiellement la même construction sous-jacente, auquel cas aucun des deux n'ajoute beaucoup plus les uns aux autres pour une bonne raison, et il serait impossible de les séparer ontologiquement pour des raisons prédictives de toute façon, en manipulant les unités d'observation pour avoir des valeurs différentes sur chacune des deux variables prédictives afin qu'elles fonctionnent mieux comme prédicteurs. Mais cela ne signifie pas qu'inclure les deux dans votre modèle tel quel est mauvais ou mauvais.
Quand il s'agit d'inférence causale, c'est un problème simplement parce qu'il nous empêche de pouvoir dire, en toute confiance au moins, lequel des prédicteurs colinéaires fait la prédiction, et donc l'explication et, vraisemblablement, la cause. Avec suffisamment d'observations, vous pourrez éventuellement identifier les effets séparés de variables même très colinéaires (mais jamais parfaitement colinéaires). C'est pourquoi Rob Franzese et UMich aiment appeler la multicolinéarité «micronumérosité». Il y a toujours une certaine colinéarité entre les prédicteurs. C'est l'une des raisons pour lesquelles nous avons généralement besoin de beaucoup d'observations. Parfois un montant impossible, pour nos besoins d'inférence causale. Mais le problème est la complexité du monde et les circonstances malheureuses qui nous empêchent d'observer une plus grande variété de situations où différents facteurs varient davantage les uns par rapport aux autres. La multicolinéarité est le symptôme de ce manque de données utiles, et la régression multivariée est le remède (imparfait). Pourtant, beaucoup de gens semblent penser que la multicolinéarité est quelque chose qu'ils font de mal avec leur modèle, et comme si c'était une raison de douter de leurs découvertes.
la source
Ce n'est pas un problème pour la modélisation prédictive quand vous ne vous souciez que des prévisions et rien d'autre.
Considérez ce modèle simple:
Nous avons des régresseurs parfaitement colinéaires, et une solution OLS typique n'existera pas car(XTX)−1 a une singularité.
Cependant, connectons une équation à une autre:
Donc, clairement, nous pouvons estimerβ^2 par les méthodes OLS habituelles, c'est-à-dire qu'il existe une solution. Le seul problème c'est que ce n'est pas unique!
Nous pouvons choisirβ^z , ce qui nous donnerait β^x=β2−αβ^x : nous avons un nombre infini de paires (β^x,β^z) qui correspondent à une solution unique β^2 . De toute évidence, l'une de ces paires est aussi bonne que toute autre pour la prédiction dey^ . De plus, toutes ces paires sont aussi bonnes que l'uniqueβ^2 coefficient aux fins de prévision .
Le seul problème est l'inférence. Si vous voulez savoir commentx impacts y votre analyse typique de β^x le coefficient et sa variance seront inutiles.
la source
La multicollinéarité n'est généralement pas le meilleur scénario pour l'analyse de régression. Notre vie serait beaucoup plus facile si tous les prédicteurs étaient orthogonaux.
C'est un problème pour l'interprétation du modèle (essayer de comprendre les données):
Imaginez si vous devez écrire un rapport à votre patron sur vos données. Vous créez un modèle de multicolinéarité presque parfait et parlez de votre modèle à votre patron. Vous pourriez dire " mon premier prédicteur est positivement corrélé avec la réponse ... Je vais vous en dire plus pourquoi . Votre patron est content, mais vous demande de réessayer sans quelques points de données. Vos coefficients dans votre nouveau modèle est maintenant ... très différent , le coefficient de votre premier prédicteur est désormais négatif! Votre patron ne vous fera plus confiance! Votre modèle n'est pas robuste.
La multicollinéarité est toujours un problème pour la puissance prédictive. Votre modèle s'adaptera et sera moins susceptible de se généraliser aux données hors échantillon. Heureusement, votreR2 ne sera pas affecté et vos coefficients seront toujours non biaisés.
la source
Je dirais que si la corrélation entre une variable et une autre variable (ou une combinaison linéaire de variables) change entre les données dans l'échantillon et les données hors échantillon, vous pouvez commencer à voir la multicolinéarité affectant la précision des données hors échantillon prévisions. La multicolinéarité ajoute simplement une autre hypothèse (corrélation cohérente) qui doit être raisonnablement satisfaite pour que votre modèle continue de bien fonctionner.
la source