Pourquoi dit-on que la variable de résultat «est régressée sur» le ou les prédicteurs?

16

Y a-t-il une explication intuitive à cette terminologie? Pourquoi en est-il ainsi et non le ou les prédicteurs régressés sur le résultat?

Idéalement, j'espère qu'une explication appropriée de la raison pour laquelle cette terminologie existe aidera les élèves à s'en souvenir et les empêchera de la dire dans le mauvais sens.

user1205901 - Réintégrer Monica
la source
1
Est-ce que nous? Je ne suis pas sûr d'avoir déjà dit cela - et j'ai beaucoup discuté de régression. Si vous connaissez quelqu'un qui le dit, vous pourriez peut-être lui demander. (Je , à l' occasion dit « régresse sur » - mais sur sonnerait un peu étrange pour moi)
Glen_b -Reinstate Monica
Merci - je voulais dire "on" et non "on". J'ai corrigé ça maintenant.
user1205901

Réponses:

19

Je ne sais pas sur quoi l'étymologie de "est régressée" est mais voici l'interprétation que j'ai en tête lorsque je dis ou entends cette expression. Considérons la figure suivante tirée des éléments de l'apprentissage statistique de Hastie et al.:

la régression est une projection

Dans son noyau, la régression linéaire équivaut à une projection orthogonale de sur (sur) , où est le vecteur à dimensions des observations de la variable dépendante et est le sous-espace couvert par les vecteurs prédicteurs .yXynX

Il s'agit d'une interprétation très utile de la régression linéaire.

Puisque est projeté sur , qui est ce que je pense quand j'entends que est « régressés sur » . De ce point de vue, il serait moins logique de dire que est régresse sur ou que est régressé « contre » ou « avec » .X y X X y y XyXyXXyyX

Idéalement, j'espère qu'une explication appropriée de la raison pour laquelle cette terminologie existe aidera les élèves à s'en souvenir et les empêchera de la dire dans le mauvais sens.

Comme je l'ai dit, je doute que cela explique pourquoi cette terminologie existe (peut-être seulement pourquoi elle persiste?), Mais je suis sûr qu'elle peut aider les élèves à s'en souvenir.

amibe dit réintégrer Monica
la source
2
+1. Dépend des étudiants! Il s'agit clairement d'une façon valable et fructueuse de parler et de penser à des niveaux intermédiaires ou avancés. Que ce soit responsable de la terminologie "on", je me demande. Il n'y a pas si longtemps, vous pouviez trouver des textes de régression sans presque aucun diagramme, sans parler d'une approche fortement visuelle ou géométrique, même si c'est maintenant tout à fait standard, alors que je pense que cette terminologie remonte à plusieurs décennies.
Nick Cox
(+1) La seule façon d'avoir le concept de régression à travers mon crâne est de le considérer comme la projection de sur l'espace de colonne C ( A ) de la matrice du modèle, ce qui, je pense, est l'interprétation géométrique que vous montrez . yC(A)
Antoni Parellada
1
C'est une très bonne raison statistique d'utiliser la terminologie. Les raisons sociales ou linguistiques pour lesquelles il est populaire pourraient être différentes!
Nick Cox
Juste pour être clair: je suis entièrement d'accord avec ce que @NickCox a dit dans les commentaires ici.
amibe dit Réintégrer Monica le
6

J'ai souvent utilisé et entendu cette façon de parler. Je suppose que la séquence mentionnant le résultat ou la réponse avant les prédicteurs découle des conventions écrites, en utilisant des mots ou en utilisant la notation ou en mélangeant les deux, jusqu'à

Y=Xβ

mettant de côté la question tout aussi intéressante (ou inintéressante!) de ce que nous appelons différents types de variables.

Mais il semble tout aussi valable mathématiquement et statistiquement de mentionner d'abord les prédicteurs, tout comme de nombreux mathématiciens écrivent des mappings ou des fonctions avec des arguments en premier.

Ce qui motive peut-être souvent la séquence que nous utilisons dans les discussions statistiques, c'est que, scientifiquement ou pratiquement, nous avons généralement une idée claire de ce que nous essayons de prédire - c'est la mortalité, ou le revenu, ou le rendement du blé, ou les votes lors d'une élection, ou quoi que ce soit - alors que le bassin de prédicteurs potentiels ou réels peut ne pas être aussi clair. Même si c'est clair, il est logique de mentionner d'abord les choses importantes. Qu'essayez-vous de faire? Prédisez quoi que ce soit . Comment allez-vous y arriver? Utilisez certaines ou toutes ces variables .

Je n'ai pas d'histoire pour "on" plutôt que tout autre mot qui conviendrait. Je n'entends pas "régresser contre" ou "régresser avec". Il n'y a peut-être pas de logique ici, juste des mèmes transmis dans les manuels, l'enseignement et les discussions.

yx

Nick Cox
la source
+1. Mais mon interprétation personnelle de "régressé sur" se fait via "projeté sur", voir ma réponse. Je me demande si beaucoup de gens pensent à cette expression de cette façon, ou est-ce seulement moi.
amibe dit Réintégrer Monica le
3

1) Le terme régression vient du fait que dans le modèle de régression linéaire simple habituel:

y=α+βx+ϵ

yxy^y¯xx¯

|y^y¯|/sy<|xx¯|/sx

Par exemple, si nous utilisons le cadre de données BOD intégré à R, alors:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

Pour une preuve, voir: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) Le terme sur vient du fait que les valeurs ajustées sont la projection de la variable de résultat sur le sous-espace couvert par les variables prédictives (y compris l'ordonnée à l'origine) comme expliqué plus en détail dans de nombreuses sources telles que http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .

Remarque

En ce qui concerne le commentaire ci-dessous, ce que le commentateur déclare est ce que la réponse indique déjà ci-dessus sous forme de formule, sauf que la réponse le dit correctement. En fait, en raison de l'égalité:

(y^y¯)=β^(xx¯)

|β|<1

beta>1

G. Grothendieck
la source
1
Je suis sûr que ce n'est pas de là que vient le terme de régression. Dans une utilisation précoce du terme, la taille du fils a régressé sur la taille du père; en raison de la réversion moyenne, les résultats ont montré que les fils de grands pères avaient tendance à régresser vers la moyenne.
PaulB
Bien que cela soit vrai pour cet ensemble de données particulier, ce n'est généralement pas vrai, sauf si vous mesurez la proximité en termes d'écarts-types, mais c'est précisément ce que fait l'inégalité dans la réponse, alors vous ne l'avez peut-être pas reconnu. En fait, la notion moderne est basée sur la formulation correcte que j'ai énoncée et non sur la formulation incorrecte n'impliquant pas l'écart type. J'ai développé ce point dans la note que j'ai ajoutée à la fin de la réponse.
G. Grothendieck
0

Personnellement, quand il s'agit d'expliquer la terminologie, je trouve que la définition du terme lui-même aide toujours, en particulier lors de l'explication aux étudiants. La définition réelle du mot régression est:

"retour à un état ancien ou moins développé".

Donc, une façon d'expliquer, je suppose, serait la suivante:

"En pensant au résultat comme à l'état pleinement développé, nous essayons d'expliquer le résultat en utilisant des états moins développés, c'est-à-dire les variables indépendantes. Ainsi, le résultat est régressé sur les prédicteurs."

J'espère que cela pourra aider.

EhsanF
la source
1
Il existe plusieurs "définitions réelles". Je dirais que dans la science statistique, la définition technique de la régression comme ajustant un modèle (par défaut un modèle linéaire) est maintenant principale et le sens historique. secondaire. Je ne trouve pas utile de penser que les prédicteurs en général sont des «états moins développés», par exemple, il n'y a aucun sens dans lequel les précipitations prédictives sont un état moins développé du rendement du blé. Quoi qu'il en soit, je ne vois pas comment cela explique l'expression.
Nick Cox
Je vois votre point complètement. Existe-t-il un moyen d'expliquer la régression à travers la définition que j'ai publiée? Parce que la façon dont je penserais de «moins développé» n'est pas dans le sens où les précipitations sont moins développées que le rendement en blé, mais plutôt comme quelque chose qui peut expliquer en partie le rendement en blé.
EhsanF
1
Si «moins développé» ne signifie pas moins développé, je ne vois pas du tout que le libellé aide.
Nick Cox