Le coefficient de corrélation est généralement écrit avec un majuscule mais parfois non. Je me demande s'il y a vraiment une différence entre et ? Est-ce que peut signifier autre chose qu'un coefficient de corrélation?r 2 R 2 r
22
Le coefficient de corrélation est généralement écrit avec un majuscule mais parfois non. Je me demande s'il y a vraiment une différence entre et ? Est-ce que peut signifier autre chose qu'un coefficient de corrélation?r 2 R 2 r
Réponses:
La notation à ce sujet semble varier un peu.
Le symbole est le "coefficient de corrélation d'échantillon" utilisé dans le cas bivarié - c'est-à-dire qu'il y a deux variables, X et Y - et cela signifie généralement la corrélation entre X et Y dans votre échantillon. Vous pouvez traiter cela comme une estimation de la corrélation ρ entre les deux variables dans la population plus large. Pour corréler deux variables, il n'est pas nécessaire d'identifier laquelle est le prédicteur et laquelle est la réponse. En effet, si vous trouviez la corrélation entre Y et ce serait la même que la corrélation entre et , car la corrélation est symétriquer X Oui X Oui ρ Oui X Y - 1 ≤ r ≤ 1 r r < 0X X Y . Notez que lorsque le symbole est utilisé de cette façon, avec (corrélation négative) si les deux variables ont une relation linéairement décroissante (lorsque l'une monte, l'autre tend à descendre).−1≤r≤1 r r<0
Lorsque la notation devient incohérente, il existe deux variables, et , et une simple régression linéaire est effectuée. Ce moyen d' identification d' une variable, , en tant que variable de réponse, et l'autre, , comme variable de prédiction, et l' ajustement du modèle . Certaines personnes utilisent également le symbole pour indiquer la corrélation entre et tandis que d'autres (par souci de régression multiple) écriventY Y X Y = β 0 + β 1 X r Y Y RX Y Y X Y^=β^0+β^1X r Y Y^ R . Notez que la corrélation entre les réponses observées et ajustées est nécessairement supérieure ou égale à zéro. C'est une des raisons pour lesquelles je n'aime pas l'utilisation du symbole dans ce cas: la corrélation entre et peut être négative, tandis que la corrélation entreX Y Yr X Y Y et Y est positif (en fait , il sera simplement le module de corrélation entre X et Y ), mais les deux pourraient être écrits avec le symbole r . J'ai vu des manuels et des articles de Wikipedia basculer presque de manière interchangeable entre les deux significations de r et je les ai trouvés inutilement déroutants. Je préfère utiliser le symbole RY^ X Y r r R pour la corrélation entre et Y à la fois dans la régression simple et multiple.Y Y^
Dans les deux simples et multiples regresión, alors tant qu'il est un terme d'interception monté dans le modèle, la entre Y et Y est simplement la racine carrée du coefficient de détermination R 2R Y Y^ R2 (souvent appelée « proportion de la variance expliquée » ou similaire). Dans le cas d'une régression linéaire simple en particulier, alors R2=r2 où j'écris pour la corrélation entre X et Y , et R 2 pourrait représenter soit le coefficient de détermination de la régression, soit le carré de la corrélation entrer X Y R2 et Y . Puisque - 1 ≤ r ≤ 1 et 0 ≤ R ≤ 1 , cela signifie que R = | r | . Ainsipar exemple, si vous obtenez une corrélation entre X et Y de r = - 0,7 alors la corrélation entre Y et ajusté Y de la simple régression linéaire Y = β 0 + β 1 XY Y^ −1≤r≤1 0≤R≤1 R=|r| X Y r=−0.7 Y Y^ Y=β^0+β^1X serait et le coefficient de détermination serait R 2 = 0,49, c'est-à-dire que près de la moitié de la variation de la réponse serait expliquée par votre modèle.R=0.7 R2=0.49
Si aucun terme d'interception n'a été inclus dans le modèle, le symbole est ambigu. Il est généralement conçu comme le coefficient de détermination, mais il sera généralement calculé d'une manière différente de l'ordinaire , alors faites attention lors de la lecture des résultats de votre logiciel statistique. Alors il n'est plus le même que le carré de la corrélation multiple R , ni dans le cas bivarié il ne sera égal à r 2 !R2 R r2
la source