Y a-t-il une différence entre et ?

22

Le coefficient de corrélation est généralement écrit avec un majuscule mais parfois non. Je me demande s'il y a vraiment une différence entre et ? Est-ce que peut signifier autre chose qu'un coefficient de corrélation?r 2 R 2 rRr2R2r

DJack
la source
8
Je suis surpris que cette question ait été rejetée - elle est claire et bien spécifiée, et couvre un problème où la terminologie est utilisée de manière incohérente. Pire, car il est sensible à la casse, il est difficile de rechercher des éclaircissements sur! Mis à part le fait que peut être utilisé pour deux choses bien différentes, la situation devient encore pire lorsque l' on considère les modèles sans conditions d'interception, lorsque , le coefficient de détermination, est même pas la même chose que le carré de . Il n'est pas surprenant que les gens puissent trouver la notation confuse. R 2 RrR2R
Silverfish

Réponses:

18

La notation à ce sujet semble varier un peu.

R est utilisé dans le contexte de la corrélation multiple et est appelé "coefficient de corrélation multiple". C'est la corrélation entre les réponses observées et le ajusté par le modèle. Le est généralement prédit à partir de plusieurs variables prédictives , par exemple où les coefficients d'interception et de pente ont été estimés à partir des données . Notez que .Y Y X i Y = β 0 + β 1 X 1 + β 2 X 2 β i 0 R 1YY^Y^XiY^=β^0+β^1X1+β^2X2β^i0R1

Le symbole est le "coefficient de corrélation d'échantillon" utilisé dans le cas bivarié - c'est-à-dire qu'il y a deux variables, X et Y - et cela signifie généralement la corrélation entre X et Y dans votre échantillon. Vous pouvez traiter cela comme une estimation de la corrélation ρ entre les deux variables dans la population plus large. Pour corréler deux variables, il n'est pas nécessaire d'identifier laquelle est le prédicteur et laquelle est la réponse. En effet, si vous trouviez la corrélation entre Y et ce serait la même que la corrélation entre et , car la corrélation est symétriquerXYXYρYX Y - 1 r 1 r r < 0XXY. Notez que lorsque le symbole est utilisé de cette façon, avec (corrélation négative) si les deux variables ont une relation linéairement décroissante (lorsque l'une monte, l'autre tend à descendre).1r1rr<0

Lorsque la notation devient incohérente, il existe deux variables, et , et une simple régression linéaire est effectuée. Ce moyen d' identification d' une variable, , en tant que variable de réponse, et l'autre, , comme variable de prédiction, et l' ajustement du modèle . Certaines personnes utilisent également le symbole pour indiquer la corrélation entre et tandis que d'autres (par souci de régression multiple) écriventY Y X Y = β 0 + β 1 X r Y Y RXYYXY^=β^0+β^1XrYY^R. Notez que la corrélation entre les réponses observées et ajustées est nécessairement supérieure ou égale à zéro. C'est une des raisons pour lesquelles je n'aime pas l'utilisation du symbole dans ce cas: la corrélation entre et peut être négative, tandis que la corrélation entreX Y YrXYY et Y est positif (en fait , il sera simplement le module de corrélation entre X et Y ), mais les deux pourraient être écrits avec le symbole r . J'ai vu des manuels et des articles de Wikipedia basculer presque de manière interchangeable entre les deux significations de r et je les ai trouvés inutilement déroutants. Je préfère utiliser le symbole RY^XYrrRpour la corrélation entre et Y à la fois dans la régression simple et multiple.YY^

Dans les deux simples et multiples regresión, alors tant qu'il est un terme d'interception monté dans le modèle, la entre Y et Y est simplement la racine carrée du coefficient de détermination R 2RYY^R2 (souvent appelée « proportion de la variance expliquée » ou similaire). Dans le cas d'une régression linéaire simple en particulier, alors R2=r2 où j'écris pour la corrélation entre X et Y , et R 2 pourrait représenter soit le coefficient de détermination de la régression, soit le carré de la corrélation entrerXYR2 et Y . Puisque - 1 r 1 et 0 R 1 , cela signifie que R = | r | . Ainsipar exemple, si vous obtenez une corrélation entre X et Y de r = - 0,7 alors la corrélation entre Y et ajusté Y de la simple régression linéaire Y = β 0 + β 1 XYY^1r10R1R=|r|XYr=0.7YY^Y=β^0+β^1Xserait et le coefficient de détermination serait R 2 = 0,49, c'est-à-dire que près de la moitié de la variation de la réponse serait expliquée par votre modèle.R=0.7R2=0.49

Si aucun terme d'interception n'a été inclus dans le modèle, le symbole est ambigu. Il est généralement conçu comme le coefficient de détermination, mais il sera généralement calculé d'une manière différente de l'ordinaire , alors faites attention lors de la lecture des résultats de votre logiciel statistique. Alors il n'est plus le même que le carré de la corrélation multiple R , ni dans le cas bivarié il ne sera égal à r 2 !R2Rr2

Silverfish
la source