Comment est-il possible d'obtenir un bon modèle de régression linéaire lorsqu'il n'y a pas de corrélation substantielle entre la sortie et les prédicteurs?

J'ai formé un modèle de régression linéaire, en utilisant un ensemble de variables / fonctionnalités. Et le modèle a de bonnes performances. Cependant, j'ai réalisé qu'il n'y a pas de variable avec une bonne corrélation avec la variable prédite. Comment est-ce possible?

regression machine-learning correlation multiple-regression linear-model Zaratruta
la source

Ce sont d'excellentes réponses, mais la question manque de nombreux détails que les réponses s'efforcent de remplir. La plus grande question dans mon esprit est ce que vous entendez par «bonne corrélation».

ECS

Duplication possible de Une variable de contrôle non informative peut-elle devenir utile?

user3684792

Une paire de variables peut présenter une corrélation partielle élevée (la corrélation tenant compte de l'impact d'autres variables) mais une corrélation marginale faible, voire nulle (corrélation par paires).

Ce qui signifie que la corrélation par paire entre une réponse, y et un certain prédicteur, x peut être de peu de valeur pour identifier des variables appropriées avec une valeur "prédictive" (linéaire) parmi une collection d'autres variables.

Tenez compte des données suivantes:

La corrélation entre y et x est . Si je trace la ligne des moindres carrés, elle est parfaitement horizontale et le va naturellement être égal à . $0$ $R^2$ $0$

Mais lorsque vous ajoutez une nouvelle variable g, qui indique de quel groupe provient les observations, x devient extrêmement informatif:

Le d'un modèle de régression linéaire contenant à la fois les variables x et g sera 1. $R^2$

Il est possible que ce genre de chose se produise avec chacune des variables du modèle - qui ont toutes une petite corrélation par paire avec la réponse, mais le modèle avec toutes ces variables est très bon pour prédire la réponse.

Lecture supplémentaire:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Glen_b -Reinstate Monica
la source

Ce comportement peut-il se produire dans un vrai modèle linéaire? Ici, la relation entre la couleur (g = 0/1) et la réponse y semble non linéaire. Cependant, ce qui peut arriver, c'est que le

du modèle sans

peut être (arbitrairement?) Inférieur au

du modèle avec

R^{2}

$R^2$

g

$g$

R^{2}

$R^2$

g

$g$

Vimal

Bon sang, j'aurais dû regarder le modèle de près :)

. Grattez cette question!

y = x - 41 g

$y=x - 41g$

Vimal

C'était en effet le modèle par lequel la réponse a été créée; mais vous pouvez immédiatement voir qu'il est linéaire en imaginant simplement soulever les points bleus d'une unité arbitraire (vers vous depuis la surface de l'écran, le long d'une nouvelle direction de l'axe "g") et voir un plan passer à travers les six points.

Glen_b -Reinstate Monica

En régression, les variables X sont conditionnées et peuvent souvent être contrôlées, donc "l'indépendance" n'est généralement pas ce que l'on recherche. En dehors des expériences conçues, les prédicteurs indépendants ne sont presque jamais vus dans tous les cas, et si vous avez conçu des expériences, les prédicteurs ne sont pas des variables aléatoires, donc "l'indépendance" (au sens statistique) n'est pas ce que vous envisagez - plutôt quelque chose comme l'orthogonalité mutuelle, sans doute. ... ctd

Glen_b -Reinstate Monica

ctd ... Si vous voulez vraiment dire une indépendance statistique (mutuelle / p-variable) de tous les prédicteurs, alors vous n'obtiendrez pas exactement zéro coefficients sur les régressions univariées de cette façon, mais vous n'avez pas non plus besoin d'une séparation complète comme l'exemple ci-dessus .

Glen_b -Reinstate Monica

Comment est-il possible d'obtenir un bon modèle de régression linéaire lorsqu'il n'y a pas de corrélation substantielle entre la sortie et les prédicteurs?

Réponses: