J'ai formé un modèle de régression linéaire, en utilisant un ensemble de variables / fonctionnalités. Et le modèle a de bonnes performances. Cependant, j'ai réalisé qu'il n'y a pas de variable avec une bonne corrélation avec la variable prédite. Comment est-ce possible?
17
Réponses:
Une paire de variables peut présenter une corrélation partielle élevée (la corrélation tenant compte de l'impact d'autres variables) mais une corrélation marginale faible, voire nulle (corrélation par paires).
Ce qui signifie que la corrélation par paire entre une réponse, y et un certain prédicteur, x peut être de peu de valeur pour identifier des variables appropriées avec une valeur "prédictive" (linéaire) parmi une collection d'autres variables.
Tenez compte des données suivantes:
La corrélation entre y et x est . Si je trace la ligne des moindres carrés, elle est parfaitement horizontale et le R 2 va naturellement être égal à 0 .0 R2 0
Mais lorsque vous ajoutez une nouvelle variable g, qui indique de quel groupe provient les observations, x devient extrêmement informatif:
Le d'un modèle de régression linéaire contenant à la fois les variables x et g sera 1.R2
Il est possible que ce genre de chose se produise avec chacune des variables du modèle - qui ont toutes une petite corrélation par paire avec la réponse, mais le modèle avec toutes ces variables est très bon pour prédire la réponse.
Lecture supplémentaire:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox
la source
la source
la source