Existe-t-il un moyen élégant / perspicace de comprendre cette identité de régression linéaire pour plusieurs ?

En régression linéaire, je suis tombé sur un résultat délicieux que si nous ajustons le modèle

E [Y] = β_{1} X_{1} + β_{2} X_{2} + c,

$E[Y] = \beta_1 X_1 + \beta_2 X_2 + c,$

puis, si nous normalisons et données , et , $Y$ $X_1$ $X_2$

R^{2} = C o r (Y, X_{1}) β_{1} + C o r (Y, X_{2}) β_{2} .

$R^2 = \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2.$

Cela me semble être une version à 2 variables de la régression pour , ce qui est agréable. $R^2 = \mathrm{Cor}(Y,X)^2$ $y=mx+c$

Mais la seule preuve que je connaisse n'est en aucun cas constructive ou perspicace (voir ci-dessous), et pourtant, à y regarder, il semble que cela devrait être facilement compréhensible.

Exemples de réflexions:

Les et nous donnent la 'proportion' de et en , et donc nous prenons des proportions respectives de leurs corrélations ... $\beta_1$ $\beta_2$ $X_1$ $X_2$ $Y$
Les s sont des corrélations partielles, est la corrélation multiple au carré ... corrélations multipliées par des corrélations partielles ... $\beta$ $R^2$
Si nous orthogonisons d'abord, alors les seront ... ce résultat a-t-il un sens géométrique? $\beta$ $\mathrm{Cov}/\mathrm{Var}$

Aucun de ces fils ne semble me mener nulle part. Quelqu'un peut-il expliquer clairement comment comprendre ce résultat?

Preuve insatisfaisante

R^{2} = \frac{S S_{r e g}}{S S_{T o t}} = \frac{S S_{r e g}}{N} = ⟨ (β_{1} X_{1} + β_{2} X_{2})^{2} ⟩ = ⟨ β_{1}^{2} X_{1}^{2} ⟩ + ⟨ β_{2}^{2} X_{2}^{2} ⟩ + 2 ⟨ β_{1} β_{2} X_{1} X_{2} ⟩

$\begin{equation} R^2 = \frac{SS_{reg}}{SS_{Tot}} = \frac{SS_{reg}}{N} = \langle(\beta_1 X_1 + \beta_2 X_2)^2\rangle \\= \langle\beta_1^2 X_1^2\rangle + \langle\beta_2^2 X_2^2\rangle + 2\langle\beta_1\beta_2X_1X_2\rangle \end{equation}$

C o r (Y, X_{1}) β_{1} + C o r (Y, X_{2}) β_{2} = ⟨ Y X_{1} ⟩ β_{1} + ⟨ Y X_{2} ⟩ β_{2} = ⟨ β_{1} X_{1}^{2} + β_{2} X_{1} X_{2} ⟩ β_{1} + ⟨ β_{1} X_{1} X_{2} + β_{2} X_{2}^{2} ⟩ β_{2} = ⟨ β_{1}^{2} X_{1}^{2} ⟩ + ⟨ β_{2}^{2} X_{2}^{2} ⟩ + 2 ⟨ β_{1} β_{2} X_{1} X_{2} ⟩

$\begin{equation} \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2 = \langle YX_1\rangle\beta_1 + \langle Y X_2\rangle \beta_2\\ =\langle \beta_1 X_1^2 + \beta_2 X_1 X_2\rangle \beta_1 + \langle \beta_1 X_1 X_2 + \beta_2 X_2^2\rangle \beta_2\\ =\langle \beta_1^2 X_1^2\rangle + \langle \beta_2^2 X_2^2 \rangle + 2\langle \beta_1 \beta_2 X_1 X_2\rangle \end{equation}$

QED.

regression linear-model r-squared proof Korone
la source

Vous devez utiliser des variables standardisées, sinon votre formule pour n'est pas garantie entre et . Bien que cette hypothèse ressorte de votre preuve, elle aiderait à la rendre explicite au départ. Je suis également perplexe sur ce que vous faites vraiment: votre est clairement une fonction du modèle seul - n'ayant rien à voir avec les données - mais vous commencez par mentionner que vous avez "ajusté" le modèle à quelque chose .

R^{2}

$R^2$

0

$0$

1

$1$

R^{2}

$R^2$

whuber

Votre meilleur résultat ne tient-il que si X1 et X2 ne sont pas parfaitement corrélés?

gung - Rétablir Monica

@gung Je ne pense pas - la preuve en bas semble dire que cela fonctionne malgré tout. Ce résultat me surprend aussi, voulant donc une "preuve de compréhension claire"

Korone

@whuber Je ne sais pas ce que vous entendez par "fonction du modèle seul"? Je veux simplement dire le pour OLS simple avec deux variables prédictives. C'est à dire qu'il s'agit de la version à 2 variables de

R^{2}

$R^2$

R^{2} = C o r (Y, X)^{2}

$R^2 = Cor(Y,X)^2$

Korone

Je ne peux pas dire si vos sont les paramètres ou les estimations.

β_{i}

$\beta_i$

whuber

Réponses:

La matrice du chapeau est idempotente.

(Il s'agit d'une façon linéaire et algébrique de déclarer que l'OLS est une projection orthogonale du vecteur de réponse sur l'espace couvert par les variables.)

Rappelons que par définition

R^{2} = \frac{E S S}{T S S}

$R^2 = \frac{ESS}{TSS}$

où

E S S = (\hat{Y})^{'} \hat{Y}

$ESS = (\hat Y)^\prime \hat Y$

est la somme des carrés des valeurs prédites (centrées) et

T S S = Y^{'} Y

$TSS = Y^\prime Y$

est la somme des carrés des valeurs de réponse (centrées). La standardisation préalable de en variance unitaire implique également $Y$

T S S = Y^{'} Y = n .

$TSS = Y^\prime Y = n.$

Rappelons également que les coefficients estimés sont donnés par

\hat{β} = (X^{'} X)^{-} X^{'} Y,

$\hat\beta = (X^\prime X)^{-} X^\prime Y,$

D'où

\hat{Y} = X \hat{β} = X (X^{'} X)^{-} X^{'} Y = H Y

$\hat Y = X \hat \beta = X (X^\prime X)^{-} X^\prime Y = H Y$

où est la « matrice de chapeau » effectuer la projection de sur ses moindres carrés . Il est symétrique (ce qui est évident de par sa forme même) et idempotent . Voici une preuve de ce dernier pour ceux qui ne connaissent pas ce résultat. Il s'agit simplement de mélanger les parenthèses: $H$ $Y$ $\hat Y$

\begin{aligned} H^{'} H = H H & = (X (X^{'} X)^{-} X^{'}) (X (X^{'} X)^{-} X^{'}) \\ = X (X^{'} X)^{-} (X^{'} X) (X^{'} X)^{-} X^{'} \\ = X (X^{'} X)^{-} X^{'} = H . \end{aligned}

$\eqalign{H^\prime H = H H &=\left( X (X^\prime X)^{-} X^\prime\right)\left(X (X^\prime X)^{-} X^\prime \right) \\ &= X (X^\prime X)^{-} \left(X^\prime X \right) (X^\prime X)^{-} X^\prime \\ &= X (X^\prime X)^{-} X^\prime = H. }$

Donc

R^{2} = \frac{E S S}{T S S} = \frac{1}{n} (\hat{Y})^{'} \hat{Y} = \frac{1}{n} Y^{'} H^{'} H Y = \frac{1}{n} Y^{'} H Y = (\frac{1}{n} Y^{'} X) \hat{β} .

$R^2 = \frac{ESS}{TSS} = \frac{1}{n} (\hat Y)^\prime \hat Y = \frac{1}{n}Y^\prime H^\prime H Y = \frac{1}{n}Y^\prime H Y = \left(\frac{1}{n}Y^\prime X\right) \hat \beta.$

Le mouvement crucial au milieu a utilisé l'idempotence de la matrice du chapeau. Le côté droit est ta formule magique car est la (ligne) vecteur des coefficients de corrélation entre et les colonnes de . $\frac{1}{n}Y^\prime X$ $Y$ $X$

whuber
la source

(+1) Très belle rédaction. Mais pourquoi ^{-}au lieu de ^{-1}partout?

amoeba

@amoeba C'est un inverse généralisé , mis là pour gérer les cas où peut être singulier.

X^{'} X

$X^\prime X$

whuber

@amoeba Penrose, dans son article original ( A Generalized Inverse for Matrices , 1954), utilisait la notation . Je n'aime ni cela ni la notation parce qu'ils sont trop facilement confondus avec des conjugués, des transposés ou des transposés conjugués, tandis que la notation est si suggestive d'un inverse que le lecteur occasionnel peut s'en tirer en pensant à comme s'ils le souhaitent. Vous êtes tout simplement trop bon lecteur - mais merci de l'avoir remarqué.

A^{†}

$A^\dagger$

A^{+}

$A^{+}$

A^{-}

$A^{-}$

A^{- 1}

$A^{-1}$

whuber

Motivation intéressante et convaincante, mais puis-je demander si cette notation est quelque chose qui est parfois utilisée ailleurs ou est-ce votre propre invention?

amibe

@amoeba: Oui, cette notation apparaît ailleurs, y compris dans les textes classiques de Graybill sur le modèle linéaire.

cardinal

Les trois formules suivantes sont bien connues, elles se retrouvent dans de nombreux ouvrages sur la régression linéaire. Il n'est pas difficile de les dériver.

$\beta_1= \frac {r_{YX_1}-r_{YX_2}r_{X_1X_2}} {\sqrt{1-r_{X_1X_2}^2}}$

$\beta_2= \frac {r_{YX_2}-r_{YX_1}r_{X_1X_2}} {\sqrt{1-r_{X_1X_2}^2}}$

$R^2= \frac {r_{YX_1}^2+r_{YX_2}^2-2 r_{YX_1}r_{YX_2}r_{X_1X_2}} {\sqrt{1-r_{X_1X_2}^2}}$

Si vous substituez les deux bêtas dans votre équation , vous obtiendrez la formule ci-dessus pour le carré R. $R^2 = r_{YX_1} \beta_1 + r_{YX_2} \beta_2$

Voici un "aperçu" géométrique. Ci-dessous, deux images montrant la régression de par et . Ce type de représentation est connu sous le nom de variables en tant que vecteurs dans l'espace sujet (veuillez lire de quoi il s'agit). Les images sont dessinées après que les trois variables ont été centrées, et donc (1) la longueur de chaque vecteur = st. écart de la variable respective, et (2) angle (son cosinus) entre tous les deux vecteurs = corrélation entre les variables respectives. $Y$ $X_1$ $X_2$

entrez la description de l'image ici

$\hat{Y}$ est la prédiction de régression (projection orthogonale de sur le "plan X"); est le terme d'erreur; , coefficient de corrélation multiple. $Y$ $e$ $cos \angle{Y \hat{Y}}={|\hat Y|}/|Y|$

L'image de gauche représente les coordonnées de biais de sur les variables et . Nous savons que ces coordonnées relient les coefficients de régression. A savoir, les coordonnées sont: et . $\hat{Y}$ $X_1$ $X_2$ $b_1|X_1|=b_1\sigma_{X_1}$ $b_2|X_2|=b_2\sigma_{X_2}$

Et l'image de droite montre les coordonnées perpendiculaires correspondantes . Nous savons que ces coordonnées relient les coefficients de corrélation d'ordre zéro (ce sont des cosinus de projections orthogonales). Si est la corrélation entre et et est la corrélation entre et alors la coordonnée est . De même pour l'autre coordonnée, . $r_1$ $Y$ $X_1$ $r_1^*$ $\hat Y$ $X_1$ $r_1|Y|=r_1\sigma_{Y} = r_1^*|\hat{Y}|=r_1^*\sigma_{\hat{Y}}$ $r_2|Y|=r_2\sigma_{Y} = r_2^*|\hat{Y}|=r_2^*\sigma_{\hat{Y}}$

Jusqu'à présent, il s'agissait d'explications générales sur la représentation des vecteurs de régression linéaire. Nous passons maintenant à la tâche pour montrer comment cela peut conduire à . $R^2 = r_1 \beta_1 + r_2 \beta_2$

Tout d'abord, rappelez-vous que dans leur question @Corone a mis en avant la condition que l'expression est vraie lorsque les trois variables sont normalisées , c'est-à-dire non seulement centrées mais également mises à l'échelle à la variance 1. Ensuite (c'est-à-dire impliquant pour être les "parties actives" des vecteurs) nous avons des coordonnées égales à: ; ; ; ; ainsi que. Redessinez, dans ces conditions, juste le "plan X" des images ci-dessus: $|X_1|=|X_2|=|Y|=1$ $b_1|X_1|=\beta_1$ $b_2|X_2|=\beta_2$ $r_1|Y|=r_1$ $r_2|Y|=r_2$ $R=|\hat Y|/|Y|=|\hat Y|$

entrez la description de l'image ici

Sur la photo, nous avons une paire de coordonnées perpendiculaires et une paire de coordonnées obliques, du même vecteur de longueur . Il existe une règle générale pour obtenir des coordonnées perpendiculaires à partir de biais (ou inverses): , où est une matrice de coordonnées perpendiculaires; est la même matrice de tailles asymétriques; et sont la matrice symétrique d'angles (cosinus) entre les axes non orthogonaux. $\hat Y$ $R$ $\bf P = S C$ $\bf P$ points X axes $\bf S$ $\bf C$ axes X axes

$X_1$ et sont les axes dans notre cas, avec étant le cosinus entre eux. Donc, et . $X_2$ $r_{12}$ $r_1 = \beta_1 + \beta_2 r_{12}$ $r_2 = \beta_1 r_{12} + \beta_2$

Remplacez ces s exprimés via s dans l'instruction @ Corone , et vous obtiendrez ce , - ce qui est vrai , car c'est exactement la façon dont une diagonale d'un parallélogramme (teintée sur l'image) est exprimée via ses côtés adjacents (la quantité étant le produit scalaire). $r$ $\beta$ $R^2 = r_1 \beta_1 + r_2 \beta_2$ $R^2 = \beta_1^2 + \beta_2^2 + 2\beta_1\beta_2r_{12}$ $\beta_1\beta_2r_{12}$

Cette même chose est vraie pour n'importe quel nombre de prédicteurs X. Malheureusement, il est impossible de dessiner les mêmes images avec de nombreux prédicteurs.

ttnphns
la source

+1 agréable de voir qu'il est construit de cette façon également, mais cela n'ajoute pas autant d'informations que la réponse de

whuber

@Corone, j'ai ajouté quelques "informations" que vous pourriez prendre.

ttnphns

+1 Vraiment cool (après la mise à jour). J'ai pensé qu'invoquer la "règle générale" de conversion entre les coordonnées est un peu exagéré (et pour moi, c'était seulement déroutant); pour voir que par exemple il suffit de se souvenir de la définition du cosinus et de regarder l'un des triangles droits.

r_{1} = β_{1} + β_{2} r_{12}

$r_1 = \beta_1 + \beta_2 r_{12}$

amoeba

Édition vraiment cool, commutée acceptée.

Korone