L'équivalence de la corrélation d'échantillon et de la statistique R pour une régression linéaire simple

10

On dit souvent que le carré de la corrélation d'échantillon est équivalent au coefficient de détermination pour une régression linéaire simple. Je n'ai pas pu le démontrer moi-même et j'apprécierais une preuve complète de ce fait. $r^2$ $R^2$

regression correlation edwardsm88
la source

1

S'il s'agit d'une question d'autoformation, veuillez ajouter la balise appropriée.

Andy

Cette question demande également pourquoi .

R^{2} = r^{2}

$R^2=r^2$

Silverfish

8

Il semble y avoir une certaine variation dans la notation: dans une simple régression linéaire, j'ai généralement vu l'expression "coefficient de corrélation d'échantillon" avec le symbole comme référence à la corrélation entre les valeurs observées de et . C'est la notation que j'ai adoptée pour cette réponse. J'ai également vu la même phrase et le même symbole utilisés pour faire référence à la corrélation entre observé et ajusté ; dans ma réponse que je l' ai mentionné à ce que le « coefficient de corrélation multiple » et utilisé le symbole . Cette réponse explique pourquoi le coefficient de détermination est à la fois le carré de et aussi le carré de $r$ $x$ $y$ $y$ $\hat y$ $R$ $r$ $R$ , donc peu importe l'utilisation prévue.

Le résultat suit dans une ligne d'algèbre une fois que certains faits simples sur la corrélation et la signification de sont établis, vous pouvez donc préférer passer à l'équation encadrée. Je suppose que nous n'avons pas à prouver les propriétés de base de la covariance et de la variance, en particulier: $r^2$ $R$

Cov (a X + b, Y) = a Cov (X, Y)

$\text{Cov}(aX+b, Y) = a\text{Cov}(X,Y)$

Var (a X + b) = a^{2} Var (X)

$\text{Var}(aX+b) = a^2\text{Var}(X)$

Notez que ce dernier peut être dérivé du premier, une fois que nous savons que la covariance est symétrique et que . De là, nous dérivons un autre fait fondamental, à propos de la corrélation. Pour , et tant que et ont des variances non nulles, $\text{Var}(X)= \text{Cov}(X,X)$ $a \neq 0$ $X$ $Y$

\begin{aligned} Cor (une X + b, Oui) & = \frac{Cov (une X + b, Oui)}{\sqrt{Var (une X + b) Var (Oui)}} \\ = \frac{une}{\sqrt{{une}^{2}}} \times \frac{Cov (X, Oui)}{\sqrt{Var (X) Var (Oui)}} \\ Cor (une X + b, Oui) & = sgn (une) Cor (X, Oui) \end{aligned}

$\begin{align} \text{Cor}(aX+b, Y) &= \frac{\text{Cov}(aX+b, Y)}{\sqrt{\text{Var}(aX+b) \text{Var} (Y)}} \\ &= \frac{a}{\sqrt{a^2}} \times \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var} (Y)}} \\ \text{Cor}(aX+b, Y) &= \text{sgn}(a) \, \text{Cor}(X,Y) \end{align}$

Ici est le signe ou la fonction de signe : sa valeur est si et si . Il est également vrai que si , mais ce cas ne nous concerne pas: serait une constante, donc in le dénominateur et nous ne pouvons pas calculer la corrélation. Les arguments de symétrie permettent de généraliser ce résultat, pour : $\text{sgn}(a)$ $\text{sgn}(a) = +1$ $a>0$ $\text{sgn}(a) = -1$ $a<0$ $\text{sgn}(a) = 0$ $a=0$ $aX+b$ $\text{Var}(aX+b) = 0$ $a, \, c \neq 0$

Cor (a X + b, c Y + d) = sgn (a) sgn (c) Cor (X, Y)

$\text{Cor}(aX+b, \, cY+d) = \text{sgn}(a) \, \text{sgn}(c) \, \text{Cor}(X,Y)$

Nous n'aurons pas besoin de cette formule plus générale pour répondre à la question actuelle, mais je l'inclus pour souligner la géométrie de la situation: elle indique simplement que la corrélation est inchangée lorsque l'une ou l'autre variable est mise à l'échelle ou traduite, mais inverse le signe lorsqu'une variable est réfléchi.

Nous avons besoin d' une plus fait: pour un modèle linéaire comprenant un terme constant, le coefficient de détermination est le carré du coefficient de corrélation multiple , qui est la corrélation entre les réponses observées et valeurs ajustées du modèle . Cela vaut pour les multiples et régressions simples, mais laissez - nous limitons notre attention sur le linéaire simple modèle . Le résultat découle de l'observation que est une version mise à l'échelle, éventuellement réfléchie et traduite de : $R^2$ $R$ $Y$ $\hat Y$ $\hat Y = \hat \beta_0 + \hat \beta_1 X$ $\hat Y$ $X$

R = Cor (\hat{Y}, Y) = Cor ({\hat{β}}_{0} + {\hat{β}}_{1} X, Y) = sgn ({\hat{β}}_{1}) Cor (X, Y) = sgn ({\hat{β}}_{1}) r

$\boxed{R = \text{Cor}(\hat Y, Y) = \text{Cor}(\hat \beta_0 + \hat \beta_1 X, \, Y) = \text{sgn}(\hat \beta_1) \, \text{Cor}(X, Y) = \text{sgn}(\hat \beta_1) \, r}$

Donc où le signe correspond au signe de la pente estimée, ce qui garantit que ne sera pas négatif. Clairement . $R = \pm r$ $R$ $R^2 = r^2$

L'argument précédent a été simplifié en n'ayant pas à considérer les sommes des carrés. Pour y parvenir, j'ai sauté les détails de la relation entre , que nous pensons normalement en termes de sommes de carrés, et , pour lequel nous pensons aux corrélations des réponses ajustées et observées. Les symboles font que la relation semble tautologique mais ce n'est pas le cas, et la relation se décompose s'il n'y a pas de terme d'interception dans le modèle! Je vais donner un bref aperçu d'un argument géométrique sur la relation entre et tiré d'une question différente : le diagramme est dessiné dans un espace sujet à dimensions $R^2$ $R$ $R^2 = (R)^2$ $R$ $R^2$ $n$ , de sorte que chaque axe (non représenté) représente une seule unité d'observation, et les variables sont représentées comme des vecteurs. Les colonnes de la matrice de conception sont le vecteur (pour le terme constant) et le vecteur d'observations de la variable explicative, donc l'espace des colonnes est un plat bidimensionnel. $\mathbf{X}$ $\mathbf{1_n}$

Vecteurs dans l'espace sujet de régression multiple

Le ajusté est la projection orthogonale du observé sur l'espace de colonne de . Cela signifie que le vecteur des résidus est perpendiculaire à l'appartement, et donc à . Le produit scalaire est . Comme les résidus à zéro et , alors sorte que les réponses ajustées et observées ont une moyenne . Les lignes pointillées du diagramme, et $\mathbf{\hat{Y}}$ $\mathbf{Y}$ $\mathbf{X}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $0 = \mathbf{1_n} \cdot \mathbf{e} = \sum_{i=1}^n e_i$ $Y_i = \hat{Y_i} + e_i$ $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ $\bar{Y}$ $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ , sont donc les centrées vecteurs pour les réponses observées et ajustés, et le cosinus de l'angle entre eux est leur corrélation . $\theta$ $R$

Le triangle que ces vecteurs forment avec le vecteur des résidus est à angle droit car se trouve dans le plat mais est orthogonal. Application de Pythagore: $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\mathbf{e}$

‖ Y - \bar{Y} 1_{n} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

Il s'agit simplement de la décomposition des sommes des carrés, . La formule conventionnelle du coefficient de détermination est qui dans ce triangle est alors est bien la place de . Vous connaissez peut-être mieux la formule , qui donne immédiatement , mais notez que est plus général et se réduira (comme nous venons de le voir) à $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $1 - \sin^2 \theta = \cos^2 \theta$ $R$ $R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}}$ $\cos^2 \theta$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $\frac{SS_{\text{regression}}}{SS_{\text{total}}}$ si un terme constant est inclus dans le modèle .

Silverfish
la source

+1 merci pour les efforts de faire de belles mathématiques et graphique !!

Haitao Du

4

Le est défini comme Le coefficient de corrélation de l'échantillon au carré: est équivalent, car il est facilement vérifiable en utilisant: (voir Verbeek , §2.4) $R^2$

R^{2} = \frac{\hat{V} ({\hat{y}}_{je})}{\hat{V} (y_{je})} = \frac{1 / (N - 1) \sum_{je = 1}^{N} ({\hat{y}}_{je} - \bar{y})^{2}}{1 / (N - 1) \sum_{je = 1}^{N} (y_{je} - \bar{y})^{2}} = \frac{E S S}{T S S}

$R^2=\frac{\hat{V}(\hat{y}_i)}{\hat{V}(y_i)} =\frac{1/(N-1)\sum_{i=1}^N(\hat{y}_i-\bar{y})^2}{1/(N-1)\sum_{i=1}^N(y_i-\bar{y})^2}=\frac{ESS}{TSS}$

r^{2} (y_{je}, {\hat{y}}_{je}) = \frac{{(\sum_{je = 1}^{N} (y_{je} - \bar{y}) ({\hat{y}}_{je} - \bar{y}))}^{2}}{(\sum_{je = 1}^{N} (y_{je} - \bar{y})^{2}) (\sum_{je = 1}^{N} ({\hat{y}}_{je} - \bar{y})^{2})}

$r^2(y_i,\hat{y}_i)=\frac{\left(\sum_{i=1}^N(y_i-\bar{y})(\hat{y}_i-\bar{y})\right)^2}{\left(\sum_{i=1}^N(y_i-\bar{y})^2\right)\left(\sum_{i=1}^N(\hat y_i-\bar{y})^2\right)}$

\hat{V} (y_{je}) = \hat{V} ({\hat{y}}_{je}) + \hat{V} (e_{je})

$\hat V(y_i)=\hat V(\hat y_i)+\hat V(e_i)$

Sergio
la source

Pourriez-vous ajouter quelques détails. J'ai essayé de le prouver mais sans succès ...

Un vieil homme dans la mer.

L'équivalence de la corrélation d'échantillon et de la statistique R pour une régression linéaire simple

Réponses: