Y a-t-il une différence entre et ?

Le coefficient de corrélation est généralement écrit avec un majuscule mais parfois non. Je me demande s'il y a vraiment une différence entre et ? Est-ce que peut signifier autre chose qu'un coefficient de corrélation? $R$ $r^2$ $R^2$ $r$

correlation terminology r-squared DJack
la source

Je suis surpris que cette question ait été rejetée - elle est claire et bien spécifiée, et couvre un problème où la terminologie est utilisée de manière incohérente. Pire, car il est sensible à la casse, il est difficile de rechercher des éclaircissements sur! Mis à part le fait que peut être utilisé pour deux choses bien différentes, la situation devient encore pire lorsque l' on considère les modèles sans conditions d'interception, lorsque , le coefficient de détermination, est même pas la même chose que le carré de . Il n'est pas surprenant que les gens puissent trouver la notation confuse.

r

$r$

R^{2}

$R^2$

R

$R$

Silverfish

La notation à ce sujet semble varier un peu.

$R$ est utilisé dans le contexte de la corrélation multiple et est appelé "coefficient de corrélation multiple". C'est la corrélation entre les réponses observées et le ajusté par le modèle. Le est généralement prédit à partir de plusieurs variables prédictives , par exemple où les coefficients d'interception et de pente ont été estimés à partir des données . Notez que . $Y$ $\hat Y$ $\hat Y$ $X_i$ $\hat Y = \hat \beta_0 + \hat \beta_1 X_1 + \hat \beta_2 X_2$ $\hat \beta_i$ $0 \leq R \leq 1$

Le symbole est le "coefficient de corrélation d'échantillon" utilisé dans le cas bivarié - c'est-à-dire qu'il y a deux variables, et - et cela signifie généralement la corrélation entre et dans votre échantillon. Vous pouvez traiter cela comme une estimation de la corrélation entre les deux variables dans la population plus large. Pour corréler deux variables, il n'est pas nécessaire d'identifier laquelle est le prédicteur et laquelle est la réponse. En effet, si vous trouviez la corrélation entre et ce serait la même que la corrélation entre et , car la corrélation est symétrique $r$ $X$ $Y$ $X$ $Y$ $\rho$ $Y$ $X$ $X$ $Y$ . Notez que lorsque le symbole est utilisé de cette façon, avec (corrélation négative) si les deux variables ont une relation linéairement décroissante (lorsque l'une monte, l'autre tend à descendre). $-1 \leq r \leq 1$ $r$ $r < 0$

Lorsque la notation devient incohérente, il existe deux variables, et , et une simple régression linéaire est effectuée. Ce moyen d' identification d' une variable, , en tant que variable de réponse, et l'autre, , comme variable de prédiction, et l' ajustement du modèle . Certaines personnes utilisent également le symbole pour indiquer la corrélation entre et tandis que d'autres (par souci de régression multiple) écrivent $X$ $Y$ $Y$ $X$ $\hat Y = \hat \beta_0 + \hat \beta_1 X$ $r$ $Y$ $\hat Y$ $R$ . Notez que la corrélation entre les réponses observées et ajustées est nécessairement supérieure ou égale à zéro. C'est une des raisons pour lesquelles je n'aime pas l'utilisation du symbole dans ce cas: la corrélation entre et peut être négative, tandis que la corrélation entre $r$ $X$ $Y$ $Y$ et est positif (en fait , il sera simplement le module de corrélation entre et ), mais les deux pourraient être écrits avec le symbole . J'ai vu des manuels et des articles de Wikipedia basculer presque de manière interchangeable entre les deux significations de et je les ai trouvés inutilement déroutants. Je préfère utiliser le symbole $\hat Y$ $X$ $Y$ $r$ $r$ $R$ pour la corrélation entre et à la fois dans la régression simple et multiple. $Y$ $\hat Y$

Dans les deux simples et multiples regresión, alors tant qu'il est un terme d'interception monté dans le modèle, la entre et est simplement la racine carrée du coefficient de détermination $R$ $Y$ $\hat Y$ $R^2$ (souvent appelée « proportion de la variance expliquée » ou similaire). Dans le cas d'une régression linéaire simple en particulier, alors $R^2 = r^2$ où j'écris pour la corrélation entre et , et pourrait représenter soit le coefficient de détermination de la régression, soit le carré de la corrélation entre $r$ $X$ $Y$ $R^2$ et . Puisque et , cela signifie que. Ainsipar exemple, si vous obtenez une corrélation entre et de alors la corrélation entre et ajusté de la simple régression linéaire $Y$ $\hat Y$ $-1 \leq r \leq 1$ $0 \leq R \leq 1$ $R = |r|$ $X$ $Y$ $r=-0.7$ $Y$ $\hat Y$ $Y = \hat \beta_0 + \hat \beta_1 X$ serait et le coefficient de détermination serait c'est-à-dire que près de la moitié de la variation de la réponse serait expliquée par votre modèle. $R = 0.7$ $R^2 = 0.49$

Si aucun terme d'interception n'a été inclus dans le modèle, le symbole est ambigu. Il est généralement conçu comme le coefficient de détermination, mais il sera généralement calculé d'une manière différente de l'ordinaire , alors faites attention lors de la lecture des résultats de votre logiciel statistique. Alors il n'est plus le même que le carré de la corrélation multiple , ni dans le cas bivarié il ne sera égal à ! $R^2$ $R$ $r^2$

Silverfish
la source

Y a-t-il une différence entre et ?

Réponses: