Quelle est la différence entre la régression linéaire sur y avec x et x avec y?

97

Le coefficient de corrélation de Pearson de x et y est le même, que vous calculiez pearson (x, y) ou pearson (y, x). Cela suggère que faire une régression linéaire de y étant donné x ou x étant donné y devrait être la même chose, mais je ne pense pas que ce soit le cas.

Quelqu'un peut-il éclairer le sujet lorsque la relation n'est pas symétrique et quel en est le lien avec le coefficient de corrélation de Pearson (que je considère toujours comme résumant la droite de meilleur ajustement)?

utilisateur9097
la source
1
Chaque matrice de corrélation sera symétrique car . Je vous encourage à faire le calcul pour voir que cela est bien vrai. Si vous savez que la relation entre et y (ou quelles que soient les variables d'intérêt) n'est pas symétrique a priori , vous aurez peut-être intérêt à vous tourner vers d'autres méthodes d'analyse. cov(x,y)=cov(y,x)xy
Phillip Cloud
14
Des points intéressants ont été soulevés sur une question connexe, Effet du changement de réponse et variable explicative dans la régression linéaire simple .
chl

Réponses:

159

La meilleure façon de penser à cela est d’imaginer un diagramme de dispersion de points avec sur l’axe vertical et représenté par l’axe horizontal. Compte tenu de ce cadre, vous voyez un nuage de points, qui peuvent être vaguement circulaires, ou peuvent être allongés dans une ellipse. Dans la régression, vous essayez de trouver ce que l’on pourrait appeler la «ligne du meilleur ajustement». Cependant, bien que cela semble simple, nous devons comprendre ce que nous entendons par «meilleur», ce qui signifie que nous devons définir ce que ce serait pour une ligne d'être bonne, ou pour qu'une ligne soit meilleure qu'une autre, etc. , nous devons stipuler une fonction de pertexyx. Une fonction de perte nous donne un moyen de dire à quel point une chose est «mauvaise» et donc, lorsque nous la minimisons, nous rendons notre ligne aussi «bonne» que possible ou nous trouvons la «meilleure» ligne.

Traditionnellement, lorsque nous effectuons une analyse de régression, nous trouvons des estimations de la pente et des interceptes de manière à minimiser la somme des erreurs au carré . Ceux-ci sont définis comme suit:

SSE=i=1N(yi(β^0+β^1xi))2

En termes de diagramme de dispersion, cela signifie que nous minimisons les distances verticales (somme des carrés) entre les points de données observés et la ligne.

entrez la description de l'image ici

Par contre, il est parfaitement raisonnable de régresser sur , mais dans ce cas, nous placerions sur l’axe vertical, et ainsi de suite. Si nous gardions notre graphique tel quel (avec sur l'axe horizontal), régresser sur (encore une fois, en utilisant une version légèrement adaptée de l'équation ci-dessus avec et commutés), nous minimiserions la somme des distances horizontales.y x x x y x yxyxxxyxyentre les points de données observés et la ligne. Cela semble très similaire, mais ce n'est pas tout à fait la même chose. (La façon de le reconnaître consiste à le faire dans les deux sens, puis à convertir algébriquement un ensemble d'estimations paramétriques en termes de l'autre. En comparant le premier modèle à la version modifiée du deuxième modèle, il devient facile de voir qu'ils sont pas le même.)

entrez la description de l'image ici

Notez que ni l'une ni l'autre manière ne produirait la même ligne que nous ne tracerions intuitivement si quelqu'un nous remettait un morceau de papier quadrillé avec des points tracés. Dans ce cas, nous tracerions une ligne droite en travers du centre, mais en minimisant la distance verticale, nous obtiendrions une ligne légèrement plus plate (c'est-à-dire, avec une pente moins profonde), tandis qu'en minimisant la distance horizontale , nous obtiendrions une ligne légèrement plus raide .

Une corrélation est symétrique; est aussi corrélé avec que est avec . La corrélation produit-moment de Pearson peut toutefois être comprise dans un contexte de régression. Le coefficient de corrélation, , est la pente de la droite de régression lorsque les deux variables ont été normalisées en premier. En d’autres termes, vous soustrayez d’abord la moyenne de chaque observation, puis vous divisez les différences par l’écart type. Le nuage de points de données sera désormais centré sur l'origine et la pente serait la même si vous régressiez sur ou sury y x r y x x yxyyxryxxy (mais notez le commentaire de @DilipSarwate ci-dessous).

entrez la description de l'image ici

Maintenant, pourquoi est-ce important? En utilisant notre fonction de perte traditionnelle, nous disons que toute l'erreur est dans une seule des variables (à savoir, ). Autrement dit, nous disons que est mesuré sans erreur et constitue l’ensemble des valeurs qui nous intéressent, mais que a une erreur d’échantillonnage.x yyxy. C'est très différent de dire l'inverse. Cela était important dans un épisode historique intéressant: à la fin des années 1970 et au début des années 1980 aux États-Unis, il a été allégué qu'il existait une discrimination à l'égard des femmes sur le lieu de travail, étayée par des analyses de régression montrant que les femmes ayant les mêmes antécédents ( , qualifications, expérience, etc.) ont été payés en moyenne moins que les hommes. Les critiques (ou simplement ceux qui étaient extrêmement consciencieux) soutenaient que, si cela était vrai, les femmes rémunérées à égalité avec les hommes devraient être plus qualifiées, mais lorsque cela a été vérifié, il a été constaté que les résultats étaient «significatifs» lorsque Dans un sens, ils n'étaient pas "significatifs" quand ils étaient cochés dans l'autre sens, ce qui a mis tout le monde dans le pétrin. Voir ici pour un papier célèbre qui a essayé de clarifier la question.


(Mis à jour beaucoup plus tard) Voici une autre façon de penser à cela qui aborde le sujet à travers les formules au lieu de visuellement:

La formule de la pente d'une droite de régression simple est une conséquence de la fonction de perte qui a été adoptée. Si vous utilisez la fonction de perte standard des moindres carrés ordinaires (indiquée ci-dessus), vous pouvez déduire la formule de la pente que vous voyez dans chaque manuel d'introduction. Cette formule peut être présentée sous différentes formes. J'appelle l'un d'eux la formule «intuitive» pour la pente. Considérez ce formulaire pour les situations dans lesquelles vous régressez sur et sur : yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Maintenant, j'espère qu'il est évident que celles-ci ne seraient pas identiques à moins que soit égal à . Si les variances sont égales (par exemple, parce que vous avez normalisé les variables en premier), les écarts-types le sont aussi, et les variances seraient donc également égales à . Dans ce cas, correspondrait au de Pearson , qui est le même dans les deux cas en vertu du principe de commutativité : Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x
gung - Rétablir Monica
la source
2
+1 pour mentionner la minimisation de la fonction de perte. Les alternatives aux distances verticales ou horizontales incluent l’utilisation de la distance perpendiculaire à la ligne ou à l’aire du rectangle, qui produisent chacune des lignes de régression différentes.
Henry
7
Je ne pense pas que l'affirmation "la pente serait la même si vous régressiez sur ou sur ". est correct si la convention est de tracer sur l'axe horizontal et sur l'axe vertical. Dans ce cas, les pentes sont réciproques . Si nous suivons la convention de variable indépendante sur l’axe horizontal et de variable dépendante sur l’axe vertical, alors oui, la pente est la même. Mais avec cette convention, l'explication des distances verticales par rapport aux distances horizontales ne s'applique pas; c'est toujours la distance verticale des points de la ligne. yxxx yyxy
Dilip Sarwate
4
@DilipSarwate, ce que vous dites est vrai. Mon but en utilisant les termes "vertical" & "horizontal" est de faire apparaître visuellement l'idée que l'erreur est comprise comme une erreur d'échantillonnage dansy , ou une erreur d'échantillonnage dans . Si nous traçons sur l'axe vertical et régressons sur , les distances minimisées seront verticales, mais l' erreur minimisée demeurera l'erreur d'échantillonnage dans . Il se peut que ma réponse ne soit pas assez claire. Je peux l'éditer, si je peux penser à un meilleur moyen. x x x yxxxyx
gung - Rétablir Monica
1
Pouvez-vous dire qu'en cas de corrélation, la distance orthogonale entre les points et la ligne est minimisée? (Je veux dire la ligne allant du point à la ligne de "régression" et se tenant orthogonalement dessus).
vonjd
1
La corrélation de Pearson ne correspond pas tout à fait à une ligne, @vonjd. Il s'avère que cela équivaut à la pente d'une droite des moindres carrés ajustée lorsque les données ont été normalisées en premier. La première composante principale, lorsqu'il n'y a que 2 variables et que les données ont été normalisées en premier lieu, est en quelque sorte une ligne ajustée qui minimise les distances orthogonales. HTH
gung - Réintégrer Monica
12

Je vais illustrer la réponse avec du Rcode et une sortie.

Tout d'abord, nous construisons une distribution normale aléatoire y, avec une moyenne de 5 et un ET de 1:

y <- rnorm(1000, mean=5, sd=1)

Ensuite, je crée volontairement une deuxième distribution normale aléatoire x, qui est simplement 5x la valeur de ypour chaque y:

x <- y*5

Par conception, nous avons une corrélation parfaite entre xet y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Cependant, quand nous faisons une régression, nous recherchons une fonction qui se rapporte xet ydonc les résultats des coefficients de régression dépendent des que nous utilisons comme variable dépendante, et que nous utilisons comme la variable indépendante. Dans ce cas, nous ne correspondons pas à une interception car nous avons créé xune fonction ysans variation aléatoire:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Les régressions nous disent donc ceci y=0.2xet cela x=5y, lesquels sont bien sûr équivalents. Le coefficient de corrélation nous indique simplement qu'il existe une correspondance exacte entre les niveaux de changement d'unité entre xet y, de sorte que (par exemple) une augmentation de 1 unité yentraîne toujours une augmentation de 0,2 unité de x.

Michelle
la source
6

L’idée selon laquelle la corrélation de Pearson est la même, que nous fassions une régression de x contre y ou de y contre x, nous devrions obtenir la même régression linéaire. Ce n'est que légèrement incorrect, et nous pouvons l'utiliser pour comprendre ce qui se passe réellement.

Ceci est l'équation d'une ligne, ce que nous essayons d'obtenir de notre régression

entrez la description de l'image ici

L'équation de la pente de cette ligne est déterminée par la corrélation de Pearson

entrez la description de l'image ici

C'est l'équation de la corrélation de Pearson. Il en va de même si nous régressons x contre y ou y contre x

entrez la description de l'image ici

Toutefois, lorsque nous examinons notre deuxième équation pour la pente, nous constatons que la corrélation de Pearson n’est pas le seul terme de cette équation. Si nous calculons y en fonction de x, l'écart type de l'échantillon de y est divisé par l'écart type de x. Si nous devions calculer la régression de x contre y, il faudrait inverser ces deux termes.

Assez ringard
la source
4

Sur des questions comme celle-ci, il est facile de se familiariser avec les problèmes techniques. Je voudrais donc me concentrer spécifiquement sur la question dans le titre du fil qui demande: Quelle est la différence entre une régression linéaire sur y avec x et x avec y ?

Considérons un instant un modèle économétrique (simplifié) issu de la théorie du capital humain (le lien renvoie à un article du lauréat du prix Nobel Gary Becker). Supposons que nous spécifions un modèle de la forme suivante: Ce modèle peut être interprété comme une relation de cause à effet entre les salaires et l’éducation. Il est important de noter que la causalité dans ce contexte signifie que le sens de la causalité va de l'éducation aux salaires et non l'inverse. Ceci est implicite dans la manière dont le modèle a été formulé; la variable dépendante est le salaire et la variable indépendante, les années d'études.

wages=b0+b1 years of education+error

Maintenant, si nous inversons l’équation économétrique (c’est-à-dire changeons y sur x en x sur y), de sorte que le modèle devienne alors que la formulation de l’équation économétrique est implicite, c’est que nous disons que le sens de la causalité va du salaire à l’éducation.

years of education=b0+b1 wages+error

Je suis sûr que vous pouvez penser à d'autres exemples comme celui-ci (en dehors du domaine économique également), mais comme vous pouvez le constater, l'interprétation du modèle peut changer de manière significative lorsque nous passons de la régression de x sur x.

Donc, pour répondre à la question: quelle est la différence entre une régression linéaire sur y avec x et x avec y? , on peut dire que l’ interprétation de l’équation de régression change lorsque nous régressons x sur y au lieu de y sur x. Nous ne devons pas négliger ce point, car un modèle qui a une bonne interprétation peut rapidement devenir un modèle qui n’a guère de sens.

Graeme Walsh
la source
3

Il existe un phénomène très intéressant à ce sujet. Après l’échange de x et de y, le coefficient de régression change, mais le niveau t-statistique / statistique F et le niveau de signification du coefficient ne changent pas. Cela est également vrai même dans la régression multiple, où nous échangeons y avec l'une des variables indépendantes.

Cela est dû à une relation délicate entre la statistique F et le coefficient de corrélation (partielle). Cette relation touche vraiment le cœur de la théorie des modèles linéaires. Il existe plus de détails sur cette conclusion dans mon cahier: Pourquoi l'échange y et x n'a pas d'effet sur p

Prekop
la source
Vous pourriez trouver le fil suivant intéressant / confondant: Échanger X et Y dans une régression contenant un prédicteur de regroupement .
Gay - Rétablir Monica
2
L'article "Pourquoi l'échange y et x n'a pas d'effet sur p" n'est plus là. Voulez-vous le rajouter?
JetLag
1

Développer l'excellente réponse de @ gung:

Dans une régression linéaire simple, la valeur absolue du de Pearson peut être considérée comme la moyenne géométrique des deux pentes obtenues si nous régressons sur et sur , respectivement: On peut obtenir directement en utilisant le ou ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

Fait intéressant, par l' inégalité AM – GM , il s'ensuit que la valeur absolue de la moyenne arithmétique des deux coefficients de pente est supérieure (ou égale à) à la valeur absolue du de Pearson : r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|

statmerkur
la source
1

La relation n'est pas symétrique car nous résolvons deux problèmes d'optimisation différents. peut être écrit en résolvant le problème suivant:  Doing regression of y given x

minbE(YbX)2

alors que pour : , qui peut être réécrit comme :doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

Il est également important de noter que deux problèmes d'aspect différent peuvent avoir la même solution.

SiXUlm
la source
1
Bien que ce soit correct - et je vous remercie de ces observations - vous laissez vos lecteurs suspendus: pourriez - vous expliquer pourquoi les solutions à ces deux différents à la recherche des problèmes sont nécessairement différents?
whuber
1
Vous avez raison. En fait , je pensais à ce sujet mais je ne pouvais pas trouver un simple (et moins mathématique) façon d'expliquer pourquoi deux solutions sont nécessairement différentes, c'est la raison pour laquelle j'ai essayé de faire à ces deux problèmes aussi semblables que possible. Ici, j'essaie simplement de fournir un point de vue différent. look
SiXUlm
comment est la dernière ligne équivalente à la ligne du milieu? Si vous multipliez par 1 / b ^ 2, vous obtenez E (X - Y / b) ^ 2 et non pas E (X - Yb) ^ 2
Austin Shin
@ AustinShin en fait j'ai triché un peu ici. Dans la ligne médiane, je retire , puis change de variable: , ce qui me donne la dernière ligne. b : = 1 / bbb:=1/b
SiXUlm
+1: vous avez clairement fait comprendre votre point maintenant!
whuber
0

Eh bien, il est vrai que pour une régression bivariée simple, le coefficient de corrélation linéaire et le carré R seront les mêmes pour les deux équations. Mais les pentes seront r Sy / Sx ou r Sx / Sy, qui ne sont pas réciproques, à moins que r = 1.

utilisateur175531
la source
1
"... ou " ... ou pour être plus concis, "... sauf si "r 2 = 11r2=1
Glen_b
-7

L'idée de base de la régression peut être la «cause à effet» ou «indépendante et dépendante». La pratique habituelle consistant à placer une variable indépendante sur l’axe X et une variable dépendante sur l’axe Y est représentée par Y = mX + c. Que la pente soit appelée m (X sur Y) ou (Y sur X) et la régression sous la forme: (X sur Y) ou (Y sur X). Il est traité dans les deux sens, ce qui n'est pas bon et doit être clarifié. Les modélisateurs utilisent fréquemment des nuages ​​de points pour juger si la série simulée correspond à la série observée; et l'utilisation de la droite de régression est inévitable. il n'y a pas de clause causative. Par cette nécessité, la question muette posée par le fil se lève. Ou simplement, veuillez clarifier comment appeler l'analyse de régression normale: X sur Y; ou Y sur X?, allant au-delà de la réponse causative. Ce n'est pas une réponse au fil conducteur; mais une question parallèle.

M. Ranjit Kumar
la source
6
-1 En plus d'être incohérente, cette réponse omet l'idée clé ainsi expliquée de manière pertinente dans la meilleure réponse: le modèle de probabilité de variation des données détermine si la régression est significative et détermine quelle variable peut être considérée comme la variable dépendante.
whuber
Ce répondant peut être en train de réitérer une interprétation de la question du titre, certes assez peu claire, en termes d'étiquetage habituel. Pour un problème de la forme y = mx + b, décrivons-nous généralement la relation comme "y est régressé sur x" (oui) ou comme "x est régressé sur y" (non)? La question sur la terminologie reçoit une réponse à l' adresse stats.stackexchange.com/questions/207425/… .
InColorado