Le coefficient de corrélation de Pearson de x et y est le même, que vous calculiez pearson (x, y) ou pearson (y, x). Cela suggère que faire une régression linéaire de y étant donné x ou x étant donné y devrait être la même chose, mais je ne pense pas que ce soit le cas.
Quelqu'un peut-il éclairer le sujet lorsque la relation n'est pas symétrique et quel en est le lien avec le coefficient de corrélation de Pearson (que je considère toujours comme résumant la droite de meilleur ajustement)?
regression
correlation
linear-model
pearson-r
utilisateur9097
la source
la source
Réponses:
La meilleure façon de penser à cela est d’imaginer un diagramme de dispersion de points avec sur l’axe vertical et représenté par l’axe horizontal. Compte tenu de ce cadre, vous voyez un nuage de points, qui peuvent être vaguement circulaires, ou peuvent être allongés dans une ellipse. Dans la régression, vous essayez de trouver ce que l’on pourrait appeler la «ligne du meilleur ajustement». Cependant, bien que cela semble simple, nous devons comprendre ce que nous entendons par «meilleur», ce qui signifie que nous devons définir ce que ce serait pour une ligne d'être bonne, ou pour qu'une ligne soit meilleure qu'une autre, etc. , nous devons stipuler une fonction de pertexy x . Une fonction de perte nous donne un moyen de dire à quel point une chose est «mauvaise» et donc, lorsque nous la minimisons, nous rendons notre ligne aussi «bonne» que possible ou nous trouvons la «meilleure» ligne.
Traditionnellement, lorsque nous effectuons une analyse de régression, nous trouvons des estimations de la pente et des interceptes de manière à minimiser la somme des erreurs au carré . Ceux-ci sont définis comme suit:
En termes de diagramme de dispersion, cela signifie que nous minimisons les distances verticales (somme des carrés) entre les points de données observés et la ligne.
Par contre, il est parfaitement raisonnable de régresser sur , mais dans ce cas, nous placerions sur l’axe vertical, et ainsi de suite. Si nous gardions notre graphique tel quel (avec sur l'axe horizontal), régresser sur (encore une fois, en utilisant une version légèrement adaptée de l'équation ci-dessus avec et commutés), nous minimiserions la somme des distances horizontales.y x x x y x yx y x x x y x y entre les points de données observés et la ligne. Cela semble très similaire, mais ce n'est pas tout à fait la même chose. (La façon de le reconnaître consiste à le faire dans les deux sens, puis à convertir algébriquement un ensemble d'estimations paramétriques en termes de l'autre. En comparant le premier modèle à la version modifiée du deuxième modèle, il devient facile de voir qu'ils sont pas le même.)
Notez que ni l'une ni l'autre manière ne produirait la même ligne que nous ne tracerions intuitivement si quelqu'un nous remettait un morceau de papier quadrillé avec des points tracés. Dans ce cas, nous tracerions une ligne droite en travers du centre, mais en minimisant la distance verticale, nous obtiendrions une ligne légèrement plus plate (c'est-à-dire, avec une pente moins profonde), tandis qu'en minimisant la distance horizontale , nous obtiendrions une ligne légèrement plus raide .
Une corrélation est symétrique; est aussi corrélé avec que est avec . La corrélation produit-moment de Pearson peut toutefois être comprise dans un contexte de régression. Le coefficient de corrélation, , est la pente de la droite de régression lorsque les deux variables ont été normalisées en premier. En d’autres termes, vous soustrayez d’abord la moyenne de chaque observation, puis vous divisez les différences par l’écart type. Le nuage de points de données sera désormais centré sur l'origine et la pente serait la même si vous régressiez sur ou sury y x r y x x yx y y x r y x x y (mais notez le commentaire de @DilipSarwate ci-dessous).
Maintenant, pourquoi est-ce important? En utilisant notre fonction de perte traditionnelle, nous disons que toute l'erreur est dans une seule des variables (à savoir, ). Autrement dit, nous disons que est mesuré sans erreur et constitue l’ensemble des valeurs qui nous intéressent, mais que a une erreur d’échantillonnage.x yy x y . C'est très différent de dire l'inverse. Cela était important dans un épisode historique intéressant: à la fin des années 1970 et au début des années 1980 aux États-Unis, il a été allégué qu'il existait une discrimination à l'égard des femmes sur le lieu de travail, étayée par des analyses de régression montrant que les femmes ayant les mêmes antécédents ( , qualifications, expérience, etc.) ont été payés en moyenne moins que les hommes. Les critiques (ou simplement ceux qui étaient extrêmement consciencieux) soutenaient que, si cela était vrai, les femmes rémunérées à égalité avec les hommes devraient être plus qualifiées, mais lorsque cela a été vérifié, il a été constaté que les résultats étaient «significatifs» lorsque Dans un sens, ils n'étaient pas "significatifs" quand ils étaient cochés dans l'autre sens, ce qui a mis tout le monde dans le pétrin. Voir ici pour un papier célèbre qui a essayé de clarifier la question.
(Mis à jour beaucoup plus tard) Voici une autre façon de penser à cela qui aborde le sujet à travers les formules au lieu de visuellement:
La formule de la pente d'une droite de régression simple est une conséquence de la fonction de perte qui a été adoptée. Si vous utilisez la fonction de perte standard des moindres carrés ordinaires (indiquée ci-dessus), vous pouvez déduire la formule de la pente que vous voyez dans chaque manuel d'introduction. Cette formule peut être présentée sous différentes formes. J'appelle l'un d'eux la formule «intuitive» pour la pente. Considérez ce formulaire pour les situations dans lesquelles vous régressez sur et sur :y x x y
la source
Je vais illustrer la réponse avec du
R
code et une sortie.Tout d'abord, nous construisons une distribution normale aléatoire
y
, avec une moyenne de 5 et un ET de 1:Ensuite, je crée volontairement une deuxième distribution normale aléatoire
x
, qui est simplement 5x la valeur dey
pour chaquey
:Par conception, nous avons une corrélation parfaite entre
x
ety
:Cependant, quand nous faisons une régression, nous recherchons une fonction qui se rapporte
x
ety
donc les résultats des coefficients de régression dépendent des que nous utilisons comme variable dépendante, et que nous utilisons comme la variable indépendante. Dans ce cas, nous ne correspondons pas à une interception car nous avons crééx
une fonctiony
sans variation aléatoire:Les régressions nous disent donc ceci
y=0.2x
et celax=5y
, lesquels sont bien sûr équivalents. Le coefficient de corrélation nous indique simplement qu'il existe une correspondance exacte entre les niveaux de changement d'unité entrex
ety
, de sorte que (par exemple) une augmentation de 1 unitéy
entraîne toujours une augmentation de 0,2 unité dex
.la source
L’idée selon laquelle la corrélation de Pearson est la même, que nous fassions une régression de x contre y ou de y contre x, nous devrions obtenir la même régression linéaire. Ce n'est que légèrement incorrect, et nous pouvons l'utiliser pour comprendre ce qui se passe réellement.
Ceci est l'équation d'une ligne, ce que nous essayons d'obtenir de notre régression
L'équation de la pente de cette ligne est déterminée par la corrélation de Pearson
C'est l'équation de la corrélation de Pearson. Il en va de même si nous régressons x contre y ou y contre x
Toutefois, lorsque nous examinons notre deuxième équation pour la pente, nous constatons que la corrélation de Pearson n’est pas le seul terme de cette équation. Si nous calculons y en fonction de x, l'écart type de l'échantillon de y est divisé par l'écart type de x. Si nous devions calculer la régression de x contre y, il faudrait inverser ces deux termes.
la source
Sur des questions comme celle-ci, il est facile de se familiariser avec les problèmes techniques. Je voudrais donc me concentrer spécifiquement sur la question dans le titre du fil qui demande: Quelle est la différence entre une régression linéaire sur y avec x et x avec y ?
Considérons un instant un modèle économétrique (simplifié) issu de la théorie du capital humain (le lien renvoie à un article du lauréat du prix Nobel Gary Becker). Supposons que nous spécifions un modèle de la forme suivante: Ce modèle peut être interprété comme une relation de cause à effet entre les salaires et l’éducation. Il est important de noter que la causalité dans ce contexte signifie que le sens de la causalité va de l'éducation aux salaires et non l'inverse. Ceci est implicite dans la manière dont le modèle a été formulé; la variable dépendante est le salaire et la variable indépendante, les années d'études.
Maintenant, si nous inversons l’équation économétrique (c’est-à-dire changeons y sur x en x sur y), de sorte que le modèle devienne alors que la formulation de l’équation économétrique est implicite, c’est que nous disons que le sens de la causalité va du salaire à l’éducation.
Je suis sûr que vous pouvez penser à d'autres exemples comme celui-ci (en dehors du domaine économique également), mais comme vous pouvez le constater, l'interprétation du modèle peut changer de manière significative lorsque nous passons de la régression de x sur x.
Donc, pour répondre à la question: quelle est la différence entre une régression linéaire sur y avec x et x avec y? , on peut dire que l’ interprétation de l’équation de régression change lorsque nous régressons x sur y au lieu de y sur x. Nous ne devons pas négliger ce point, car un modèle qui a une bonne interprétation peut rapidement devenir un modèle qui n’a guère de sens.
la source
Il existe un phénomène très intéressant à ce sujet. Après l’échange de x et de y, le coefficient de régression change, mais le niveau t-statistique / statistique F et le niveau de signification du coefficient ne changent pas. Cela est également vrai même dans la régression multiple, où nous échangeons y avec l'une des variables indépendantes.
Cela est dû à une relation délicate entre la statistique F et le coefficient de corrélation (partielle). Cette relation touche vraiment le cœur de la théorie des modèles linéaires. Il existe plus de détails sur cette conclusion dans mon cahier: Pourquoi l'échange y et x n'a pas d'effet sur p
la source
Développer l'excellente réponse de @ gung:
Dans une régression linéaire simple, la valeur absolue du de Pearson peut être considérée comme la moyenne géométrique des deux pentes obtenues si nous régressons sur et sur , respectivement: On peut obtenir directement en utilisant le our y x x y β^1yonx⋅β^1xony−−−−−−−−−−−−√=Cov(x,y)Var(x)⋅Cov(y,x)Var(y)−−−−−−−−−−−−−−−−−√=|Cov(x,y)|SD(x)⋅SD(y)=|r| r
r=sign(β^1yonx)⋅β^1yonx⋅β^1xony−−−−−−−−−−−−√ r=sign(β^1xony)⋅β^1yonx⋅β^1xony−−−−−−−−−−−−√
Fait intéressant, par l' inégalité AM – GM , il s'ensuit que la valeur absolue de la moyenne arithmétique des deux coefficients de pente est supérieure (ou égale à) à la valeur absolue du de Pearson :r |12⋅(β^1yonx+β^1xony)|≥β^1yonx⋅β^1xony−−−−−−−−−−−−√=|r|
la source
La relation n'est pas symétrique car nous résolvons deux problèmes d'optimisation différents. peut être écrit en résolvant le problème suivant: Doing regression of y given x minbE(Y−bX)2
alors que pour : , qui peut être réécrit comme :doing regression of x given y minbE(X−bY)2
Il est également important de noter que deux problèmes d'aspect différent peuvent avoir la même solution.
la source
Eh bien, il est vrai que pour une régression bivariée simple, le coefficient de corrélation linéaire et le carré R seront les mêmes pour les deux équations. Mais les pentes seront r Sy / Sx ou r Sx / Sy, qui ne sont pas réciproques, à moins que r = 1.
la source
L'idée de base de la régression peut être la «cause à effet» ou «indépendante et dépendante». La pratique habituelle consistant à placer une variable indépendante sur l’axe X et une variable dépendante sur l’axe Y est représentée par Y = mX + c. Que la pente soit appelée m (X sur Y) ou (Y sur X) et la régression sous la forme: (X sur Y) ou (Y sur X). Il est traité dans les deux sens, ce qui n'est pas bon et doit être clarifié. Les modélisateurs utilisent fréquemment des nuages de points pour juger si la série simulée correspond à la série observée; et l'utilisation de la droite de régression est inévitable. il n'y a pas de clause causative. Par cette nécessité, la question muette posée par le fil se lève. Ou simplement, veuillez clarifier comment appeler l'analyse de régression normale: X sur Y; ou Y sur X?, allant au-delà de la réponse causative. Ce n'est pas une réponse au fil conducteur; mais une question parallèle.
la source