Comment le coefficient de corrélation diffère-t-il de la pente de régression?

69

Je me serais attendu à ce que le coefficient de corrélation soit identique à une pente de régression (bêta). Cependant, juste après avoir comparé les deux, ils sont différents. En quoi diffèrent-ils - quelles informations donnent-ils?

luciano
la source
3
si elles sont normalisées, elles sont identiques. mais pensez à ce qui se passe lorsque vous faites un changement d'unités ...
nicolas
Je pense que les réponses les mieux notées à ce Q (et peut-être même mon A à lui où je montre que le coefficient de corrélation peut être vu comme la valeur absolue de la moyenne géométrique des deux pentes que nous obtenons si nous régressons y sur x et x sur y, respectivement) sont également pertinents ici
statmerkur

Réponses:

82

En supposant que vous parlez d'un modèle de régression simple estimé par les moindres carrés, nous savons d' après wikipedia que Par conséquent, les deux ne coïncident que lorsque . Autrement dit, elles ne coïncident que lorsque les deux variables sont sur la même échelle, dans un sens. Le moyen le plus courant d’atteindre cet objectif est la normalisation, comme indiqué par @gung. S D ( Y i ) = S D ( X i )

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

Dans un sens, les deux vous donnent la même information - ils vous disent chacun la force de la relation linéaire entre et . Mais, ils vous donnent chacun des informations distinctes (sauf, bien sûr, quand ils sont exactement les mêmes):Y iXiYi

  • La corrélation vous donne une mesure bornée pouvant être interprétée indépendamment de l'échelle des deux variables. Plus la corrélation estimée est proche de , plus les deux sont proches d'une relation linéaire parfaite . La pente de régression, prise isolément, ne vous dit pas cette information.±1

  • La pente de régression donne une quantité utile interprétée comme la variation estimée de la valeur attendue de pour une valeur donnée de . Plus précisément, vous indique le changement de la valeur attendue de correspondant à une augmentation de 1 unité de . Cette information ne peut être déduite du seul coefficient de corrélation.X i β Y i X iYiXiβ^YiXi

Macro
la source
En corollaire de cette réponse, notez que la régression de x contre y n'est pas l'inverse de la régression de y contre x!
Aginensky
23

Avec une régression linéaire simple ( par exemple, seulement 1 covariable), la pente est le même que celui de Pearson si les deux variables ont été normalisées en premier. (Pour plus d'informations, ma réponse peut être utile ici .) Lorsque vous effectuez une régression multiple, cela peut être plus compliqué à cause de la , etc. rβ1r

gung - Rétablir Monica
la source
14

Le coefficient de corrélation mesure le "resserrement" de la relation linéaire entre deux variables et est limité entre -1 et 1 inclus. Les corrélations proches de zéro ne représentent aucune association linéaire entre les variables, alors que les corrélations proches de -1 ou +1 indiquent une relation linéaire forte. Intuitivement, plus il vous est facile de tracer une ligne de meilleur ajustement dans un diagramme de dispersion, plus elles sont corrélées.

La pente de régression mesure "l'inclinaison" de la relation linéaire entre deux variables et peut prendre n'importe quelle valeur de à . Les pentes proches de zéro signifient que la variable de réponse (Y) change lentement à mesure que la variable de prédicteur (X) change. Les pentes plus éloignées de zéro (dans le sens négatif ou positif) signifient que la réponse change plus rapidement à mesure que le prédicteur change. Intuitivement, si vous tracez une ligne de meilleur ajustement dans un diagramme de dispersion, plus elle est raide, plus votre pente est éloignée de zéro.+ +

Ainsi, le coefficient de corrélation et la pente de régression DOIVENT avoir le même signe (+ ou -), mais n’auront presque jamais la même valeur.

Pour simplifier, cette réponse suppose une régression linéaire simple.

Sous-marinier
la source
vous indiquez que la version bêta peut être dans , mais n'y a-t-il pas une liaison au cas par cas sur la version bêta impliquée par le rapport de variance de x et y? inf,inf
Matifou
1

Le coefficient de corrélation de Pearson est sans dimension et est compris entre -1 et 1, quelles que soient la dimension et l'échelle des variables d'entrée.

Si (par exemple) vous entrez une masse en grammes ou en kilogrammes, cela ne fait aucune différence avec la valeur de , alors que cela fera une énorme différence pour le gradient / la pente (qui a une dimension et est mise à l'échelle en conséquence ... de même, ne changerait rien si la balance était ajustée de quelque manière que ce soit, y compris en utilisant des livres ou des tonnes).rr

Une démonstration simple (excuses pour l’utilisation de Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

montre que même si la pente a été multipliée par 10.r=0.969363

Je dois avouer que c'est une astuce qui vient à être mis à l' échelle entre -1 et 1 (un de ces cas où le numérateur ne peut jamais avoir une valeur absolue supérieure au dénominateur).r

Comme @Macro l’a expliqué en détail ci-dessus, la pente , vous avez donc raison de penser que le de Pearson est lié à la pente, aux écarts-types (qui restaure efficacement les dimensions et les échelles!).b=r(σyσx)r

Au début, je trouvais étrange que la formule semble suggérer qu'une ligne mal ajustée (faible ) donne un gradient plus faible; J'ai ensuite tracé un exemple et réalisé que, étant donné un gradient, faire varier le "relâchement" entraînait la diminution de mais que cela était compensé par une augmentation proportionnelle de .rrσy

Dans le graphique ci-dessous, quatre jeux de données sont tracés:x,y

  1. les résultats de (donc le gradient , , , ) ... notez quey=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. le même mais varié par un nombre aléatoire, avec , , , à partir duquel on peut calculerr=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x (donc et , , )b=15r=1σx=0.58σy=8.66
  4. le même que (2) mais avec une portée réduite donc (et toujours , , ) xb=14.70r=0.2447σx=0.58σy=34.69corrélation et gradient

On peut voir que la variance affecte sans affecter nécessairement , et que les unités de mesure peuvent affecter l’échelle et donc sans affecterrbbr

James
la source