Comment est-il possible d'obtenir un bon modèle de régression linéaire lorsqu'il n'y a pas de corrélation substantielle entre la sortie et les prédicteurs?

17

J'ai formé un modèle de régression linéaire, en utilisant un ensemble de variables / fonctionnalités. Et le modèle a de bonnes performances. Cependant, j'ai réalisé qu'il n'y a pas de variable avec une bonne corrélation avec la variable prédite. Comment est-ce possible?

Zaratruta
la source
3
Ce sont d'excellentes réponses, mais la question manque de nombreux détails que les réponses s'efforcent de remplir. La plus grande question dans mon esprit est ce que vous entendez par «bonne corrélation».
ECS

Réponses:

35

Une paire de variables peut présenter une corrélation partielle élevée (la corrélation tenant compte de l'impact d'autres variables) mais une corrélation marginale faible, voire nulle (corrélation par paires).

Ce qui signifie que la corrélation par paire entre une réponse, y et un certain prédicteur, x peut être de peu de valeur pour identifier des variables appropriées avec une valeur "prédictive" (linéaire) parmi une collection d'autres variables.

Tenez compte des données suivantes:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

La corrélation entre y et x est . Si je trace la ligne des moindres carrés, elle est parfaitement horizontale et le R 2 va naturellement être égal à 0 .0R20

Mais lorsque vous ajoutez une nouvelle variable g, qui indique de quel groupe provient les observations, x devient extrêmement informatif:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

Le d'un modèle de régression linéaire contenant à la fois les variables x et g sera 1.R2

Diagramme de y vs x montrant un manque de relation linéaire par paire mais avec une couleur indiquant le groupe;  au sein de chaque groupe, la relation est parfaite

Il est possible que ce genre de chose se produise avec chacune des variables du modèle - qui ont toutes une petite corrélation par paire avec la réponse, mais le modèle avec toutes ces variables est très bon pour prédire la réponse.

Lecture supplémentaire:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Glen_b -Reinstate Monica
la source
Ce comportement peut-il se produire dans un vrai modèle linéaire? Ici, la relation entre la couleur (g = 0/1) et la réponse y semble non linéaire. Cependant, ce qui peut arriver, c'est que le du modèle sans g peut être (arbitrairement?) Inférieur au R 2 du modèle avec g . R2gR2g
Vimal
Bon sang, j'aurais dû regarder le modèle de près :) . Grattez cette question! y=X-41g
Vimal
C'était en effet le modèle par lequel la réponse a été créée; mais vous pouvez immédiatement voir qu'il est linéaire en imaginant simplement soulever les points bleus d'une unité arbitraire (vers vous depuis la surface de l'écran, le long d'une nouvelle direction de l'axe "g") et voir un plan passer à travers les six points.
Glen_b -Reinstate Monica
1
En régression, les variables X sont conditionnées et peuvent souvent être contrôlées, donc "l'indépendance" n'est généralement pas ce que l'on recherche. En dehors des expériences conçues, les prédicteurs indépendants ne sont presque jamais vus dans tous les cas, et si vous avez conçu des expériences, les prédicteurs ne sont pas des variables aléatoires, donc "l'indépendance" (au sens statistique) n'est pas ce que vous envisagez - plutôt quelque chose comme l'orthogonalité mutuelle, sans doute. ... ctd
Glen_b -Reinstate Monica
1
ctd ... Si vous voulez vraiment dire une indépendance statistique (mutuelle / p-variable) de tous les prédicteurs, alors vous n'obtiendrez pas exactement zéro coefficients sur les régressions univariées de cette façon, mais vous n'avez pas non plus besoin d'une séparation complète comme l'exemple ci-dessus .
Glen_b -Reinstate Monica
2

X1X2

X2X1X1ρx1,y|x2y=β1X1+β2X2+ϵρx1,y

Ray Yang
la source
0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Accumulation
la source