Quelle est la différence entre la corrélation et la régression linéaire simple?

Réponses:

114

Quelle est la différence entre la corrélation entre et et une régression linéaire prédisant partir de ?Y Y XXYYX

Tout d'abord, quelques similitudes :

  • le coefficient de régression normalisé est le même que le coefficient de corrélation de Pearson
  • Le carré du coefficient de corrélation de Pearson est identique à celui de dans la régression linéaire simpleR2
  • Ni la régression linéaire simple, ni la corrélation ne répondent directement aux questions de causalité. Ce point est important, parce que je l' ai rencontré des gens qui pensent que la régression simple peut permettre comme par magie une inférence que cause .YXY

Deuxièmement, quelques différences :

  • L’équation de régression (c’est-à-dire ) peut être utilisée pour faire des prédictions sur basées sur les valeurs deY Xa+bXYX
  • Bien que la corrélation se réfère généralement à la relation linéaire, elle peut faire référence à d'autres formes de dépendance, telles que les relations polynomiales ou véritablement non linéaires.
  • Bien que la corrélation se réfère généralement au coefficient de corrélation de Pearson, il existe d'autres types de corrélation, tels que ceux de Spearman.
Jeromy Anglim
la source
Bonjour Jeromy, merci pour votre explication, mais j'ai toujours une question ici: Et si je n'ai pas besoin de faire de prédiction et que je veux juste savoir à quel point deux variables sont proches et dans quelle direction / force? Y a-t-il encore une différence en utilisant ces deux techniques?
Yue86231
3
@ yue86231 Il semble alors qu'une mesure de corrélation serait plus appropriée.
Jeromy Anglim
5
(+1) Aux similitudes, il pourrait être utile d'ajouter que les tests standard de l'hypothèse "corrélation = 0" ou, de manière équivalente, "pente = 0" (pour la régression dans l'un ou l'autre ordre), tels que effectués par lmet cor.testdans R, donnera des valeurs p identiques.
whuber
3
Je conviens que la suggestion de @whuber devrait être ajoutée, mais à un niveau très élémentaire, je pense qu’il est intéressant de souligner que le signe de la pente de régression et le coefficient de corrélation sont égaux. C’est probablement l’une des premières choses que la plupart des gens apprennent au sujet de la relation entre la corrélation et une «ligne de meilleur ajustement» (même s’ils ne l’appellent pas encore «régression»), mais je pense que cela vaut la peine d’être mentionné. Aux différences, le fait que vous obteniez la même corrélation de réponses X avec Y ou inversement, mais que la régression de Y sur X soit différent de celui de X sur Y, mériterait également une mention.
Silverfish
36

Voici une réponse que j'ai postée sur le site Web graphpad.com :

La corrélation et la régression linéaire ne sont pas identiques. Considérez ces différences:

  • La corrélation quantifie le degré auquel deux variables sont liées. La corrélation ne correspond pas à une ligne dans les données.
  • Avec la corrélation, vous n'avez pas à penser à la cause et à l'effet. Vous quantifiez simplement la relation entre deux variables. Avec la régression, vous devez penser à la cause et à l’effet car la droite de régression est déterminée comme le meilleur moyen de prédire Y à partir de X.
  • Avec la corrélation, peu importe laquelle des deux variables que vous appelez "X" et que vous appelez "Y". Vous obtiendrez le même coefficient de corrélation si vous permutez les deux. Avec la régression linéaire, le choix de la variable que vous appelez «X» et de celle que vous appelez «Y» est très important, car vous obtiendrez une ligne de meilleur ajustement différente si vous permutez les deux. La ligne qui prédit le mieux Y à partir de X n’est pas la même que la ligne qui prédit X à partir de Y (sauf si vous disposez de données parfaites sans dispersion).
  • La corrélation est presque toujours utilisée lorsque vous mesurez les deux variables. C'est rarement approprié lorsqu'une variable est quelque chose que vous manipulez de manière expérimentale. Avec la régression linéaire, la variable X est généralement quelque chose que vous manipulez de manière expérimentale (temps, concentration ...) et la variable Y est quelque chose que vous mesurez.
Harvey Motulsky
la source
13
"le meilleur moyen de prédire Y à partir de X" n'a rien à voir avec les causes à effet: X pourrait être la cause de Y ou inversement. On peut raisonner de causes en effets (déduction) ou d’effets en causes (abduction).
Neil G
4
"vous obtiendrez une ligne de meilleur ajustement différente si vous échangez les deux" est un peu trompeur; les pentes normalisées seront les mêmes dans les deux cas.
xenocyon
26

Dans le seul prédicteur de régression linéaire, la pente normalisée a la même valeur que le coefficient de corrélation. L'avantage de la régression linéaire est que la relation peut être décrite de manière à ce que vous puissiez prédire (en fonction de la relation entre les deux variables) le score de la variable prédite en fonction d'une valeur particulière de la variable prédictive. Une régression linéaire, en particulier, fournit une information indiquant qu'une corrélation n'est pas l'interception, la valeur de la variable prédite lorsque le prédicteur est 0.

En bref, ils produisent des résultats identiques sur le plan du calcul, mais il existe davantage d'éléments susceptibles d'interprétation dans la régression linéaire simple. Si vous souhaitez simplement décrire l'ampleur de la relation entre deux variables, utilisez la corrélation - si vous souhaitez prédire ou expliquer vos résultats en termes de valeurs particulières, vous souhaitez probablement une régression.

russellpierce
la source
"En particulier, une régression linéaire donne une information qui ne permet pas une corrélation, c’est l’interception" ... Beaucoup de différence!
Islam
Eh bien, rétrospectivement, il n’est vrai que la régression fournit une interception, c’est parce que c’est la valeur par défaut pour de nombreux packages de statistiques. On pourrait facilement calculer une régression sans interception.
russellpierce
Oui, on pourrait facilement calculer une régression sans interception, mais cela aurait rarement un sens: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen 10/10
@kjetilbhalvorsen Sauf dans le cas que je viens de décrire lorsque vous installez une pente normalisée. Le terme d'interception dans une équation de régression normalisée est toujours 0. Pourquoi? Étant donné que l'IV et les DV ont été standardisés en scores unitaires, l'interception est par définition égale à 0. Exactement le type de cas que vous décrivez dans votre réponse. (l’équivalent de la normalisation de l’IV et du DV). Lorsque IV et DV ont été normalisés à 0, l'interception est définie comme étant égale à 0.
russellpierce
11

L'analyse de corrélation ne quantifie que la relation entre deux variables en ignorant la variable dépendante et la variable indépendante. Mais avant d'appliquer la régression, vous devez calrifier l'impact de la variable que vous souhaitez vérifier sur l'autre variable.


la source
9

Toutes les réponses fournies jusqu'à présent fournissent des informations importantes, mais il ne faut pas oublier que vous pouvez transformer les paramètres de l'un en l'autre:

y=mx+b

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Ainsi, vous pouvez transformer les deux l'un en l'autre en mettant à l'échelle et en décalant leurs paramètres.

Un exemple dans R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196
vonjd
la source
3

À partir de la corrélation, nous ne pouvons obtenir qu'un index décrivant la relation linéaire entre deux variables; en régression, nous pouvons prédire la relation entre plus de deux variables et l'utiliser pour identifier les variables x pouvant prédire la variable de résultat y .

radia
la source
3

Citant Altman, DG, "Statistiques pratiques pour la recherche médicale", Chapman & Hall, 1991, page 321: "La corrélation réduit un ensemble de données à un nombre unique qui n'a aucun rapport direct avec les données réelles. La régression est une méthode beaucoup plus utile, avec des résultats clairement liés à la mesure obtenue. L'intensité de la relation est explicite et l'incertitude est clairement visible à partir des intervalles de confiance ou des intervalles de prévision "

Carlo Lazzaro
la source
3
Bien que je sympathise avec Altman - les méthodes de régression sont souvent plus appropriées que la corrélation dans de nombreux cas - cette citation met en place un argument de type homme de paille. Dans la régression OLS, les informations produites sont équivalentes à celles fournies par les informations qui entrent dans un calcul de corrélation (tous les premier et second moments bivariés et leurs erreurs types) et le coefficient de corrélation fournit les mêmes informations que la pente de régression. Les deux approches diffèrent quelque peu dans les modèles de données sous-jacents qu'elles supposent et dans leur interprétation, mais pas dans les manières revendiquées par Altman.
whuber
1

L'analyse de régression est une technique permettant d'étudier la cause de l'effet d'une relation entre deux variables. alors que, L’analyse de corrélation est une technique pour étudier la quantification de la relation entre deux variables.

Kanon Das Zinku
la source
6
Bienvenue sur CV! Étant donné qu’il ya déjà tellement de réponses à cette question, voulez-vous les examiner et voir si la vôtre ajoute quelque chose de nouveau? Si vous avez plus à dire, vous pouvez le modifier pour le faire.
Scortchi - Réintégrer Monica
0

La corrélation est un indice (un seul nombre) de la force d'une relation. La régression est une analyse (estimation des paramètres d'un modèle et test statistique de leur importance) de l'adéquation d'une relation fonctionnelle particulière. La taille de la corrélation est liée à la précision des prévisions de la régression.

Jdub
la source
1
Non ce n'est pas. La corrélation nous donne une relation bornée, mais elle n’a aucun rapport avec la précision des prévisions. R2 donne ça.
SmallChess
-3

La corrélation est un terme dans une statistique qui détermine s'il existe ou non une relation entre deux, puis le degré de relation. Sa plage est de -1 à +1. Tandis que la régression signifie un retour vers la moyenne. À partir de la régression, nous prédisons la valeur en gardant une variable dépendante et une autre indépendante, mais il convient de préciser la valeur de la variable à prédire.

shakir sabir
la source
6
Bonjour, @shakir, et bienvenue dans Cross Validated! Vous avez probablement remarqué qu'il s'agit d'une vieille question (de 2010) et il y a déjà sept (!) Réponses données. Ce serait une bonne idée de vous assurer que votre nouvelle réponse ajoute quelque chose d'important à la discussion qui n'a pas été couvert auparavant. Pour le moment, je ne suis pas sûr que ce soit le cas.
amibe