Y a-t-il une explication intuitive à cette terminologie? Pourquoi en est-il ainsi et non le ou les prédicteurs régressés sur le résultat?
Idéalement, j'espère qu'une explication appropriée de la raison pour laquelle cette terminologie existe aidera les élèves à s'en souvenir et les empêchera de la dire dans le mauvais sens.
regression
terminology
teaching
user1205901 - Réintégrer Monica
la source
la source
Réponses:
Je ne sais pas sur quoi l'étymologie de "est régressée" est mais voici l'interprétation que j'ai en tête lorsque je dis ou entends cette expression. Considérons la figure suivante tirée des éléments de l'apprentissage statistique de Hastie et al.:
Dans son noyau, la régression linéaire équivaut à une projection orthogonale de sur (sur) , où est le vecteur à dimensions des observations de la variable dépendante et est le sous-espace couvert par les vecteurs prédicteurs .y X y n X
Il s'agit d'une interprétation très utile de la régression linéaire.
Puisque est projeté sur , qui est ce que je pense quand j'entends que est « régressés sur » . De ce point de vue, il serait moins logique de dire que est régresse sur ou que est régressé « contre » ou « avec » .X y X X y y Xy X y X X y y X
Comme je l'ai dit, je doute que cela explique pourquoi cette terminologie existe (peut-être seulement pourquoi elle persiste?), Mais je suis sûr qu'elle peut aider les élèves à s'en souvenir.
la source
J'ai souvent utilisé et entendu cette façon de parler. Je suppose que la séquence mentionnant le résultat ou la réponse avant les prédicteurs découle des conventions écrites, en utilisant des mots ou en utilisant la notation ou en mélangeant les deux, jusqu'à
mettant de côté la question tout aussi intéressante (ou inintéressante!) de ce que nous appelons différents types de variables.
Mais il semble tout aussi valable mathématiquement et statistiquement de mentionner d'abord les prédicteurs, tout comme de nombreux mathématiciens écrivent des mappings ou des fonctions avec des arguments en premier.
Ce qui motive peut-être souvent la séquence que nous utilisons dans les discussions statistiques, c'est que, scientifiquement ou pratiquement, nous avons généralement une idée claire de ce que nous essayons de prédire - c'est la mortalité, ou le revenu, ou le rendement du blé, ou les votes lors d'une élection, ou quoi que ce soit - alors que le bassin de prédicteurs potentiels ou réels peut ne pas être aussi clair. Même si c'est clair, il est logique de mentionner d'abord les choses importantes. Qu'essayez-vous de faire? Prédisez quoi que ce soit . Comment allez-vous y arriver? Utilisez certaines ou toutes ces variables .
Je n'ai pas d'histoire pour "on" plutôt que tout autre mot qui conviendrait. Je n'entends pas "régresser contre" ou "régresser avec". Il n'y a peut-être pas de logique ici, juste des mèmes transmis dans les manuels, l'enseignement et les discussions.
la source
1) Le terme régression vient du fait que dans le modèle de régression linéaire simple habituel:
Par exemple, si nous utilisons le cadre de données BOD intégré à R, alors:
Pour une preuve, voir: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) Le terme sur vient du fait que les valeurs ajustées sont la projection de la variable de résultat sur le sous-espace couvert par les variables prédictives (y compris l'ordonnée à l'origine) comme expliqué plus en détail dans de nombreuses sources telles que http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .
Remarque
En ce qui concerne le commentaire ci-dessous, ce que le commentateur déclare est ce que la réponse indique déjà ci-dessus sous forme de formule, sauf que la réponse le dit correctement. En fait, en raison de l'égalité:
la source
Personnellement, quand il s'agit d'expliquer la terminologie, je trouve que la définition du terme lui-même aide toujours, en particulier lors de l'explication aux étudiants. La définition réelle du mot régression est:
"retour à un état ancien ou moins développé".
Donc, une façon d'expliquer, je suppose, serait la suivante:
"En pensant au résultat comme à l'état pleinement développé, nous essayons d'expliquer le résultat en utilisant des états moins développés, c'est-à-dire les variables indépendantes. Ainsi, le résultat est régressé sur les prédicteurs."
J'espère que cela pourra aider.
la source