Interprétation géométrique du coefficient de corrélation multiple

24

Je m'intéresse à la signification géométrique de la corrélation multiple et du coefficient de détermination dans la régression , ou en notation vectorielle,R 2 y i = β 1 + β 2 x 2 , i + + β k x k , i + ϵ iRR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Ici, la matrice de conception a lignes et colonnes, dont la première est , un vecteur de 1 qui correspond à l'interception . n k x 1 = 1 n β 1Xnkx1=1nβ1

La géométrie est plus intéressante dans l' espace sujet n dimensionnel que dans l' espace variable k dimensionnel. Définissez la matrice du chapeau:

H=X(XX)1X

Il s'agit d'une projection orthogonale sur l'espace de colonne de X , c'est-à-dire le plat passant par l'origine parcouru par les k vecteurs représentant chaque variable xi , dont le premier est 1n . Alors H projette le vecteur des réponses observées y sur son "ombre" sur le plat, le vecteur des valeurs ajustées y^=Hy , et si nous regardez le long du chemin de la projection, nous voyons le vecteur des résidus e=yy^ forme le troisième côté d'un triangle. Cela devrait nous fournir deux voies pour une interprétation géométrique de R2:

  1. Le carré du coefficient de corrélation multiple, R , qui est défini comme la corrélation entre y et y^ . Cela apparaîtra géométriquement comme le cosinus d'un angle.
  2. En termes de longueurs de vecteurs: par exemple SSresidual=i=1nei2=e2 .

Je serais ravi de voir un bref compte rendu qui explique:

  • Les détails les plus fins pour (1) et (2),
  • Pourquoi (1) et (2) sont équivalents,
  • En bref, comment la compréhension géométrique nous permet de visualiser les propriétés de base de R2 , par exemple pourquoi elle passe à 1 lorsque la variance du bruit passe à 0. (Après tout, si nous ne pouvons pas intuitivement à partir de notre visualisation, ce n'est rien de plus qu'un Belle photo.)

J'apprécie que c'est plus simple si les variables sont centrées en premier, ce qui supprime l'interception de la question. Cependant, dans la plupart des comptes de manuels qui introduisent une régression multiple, la matrice de conception est telle que je l'ai présentée. Bien sûr, c'est bien si une exposition plonge dans l'espace couvert par les variables centrées, mais pour avoir un aperçu de l'algèbre linéaire du manuel, il serait très utile de relier cela à ce qui se passe géométriquement dans la situation non concentrée. Une réponse vraiment perspicace pourrait expliquer ce qui se décompose exactement géométriquement lorsque le terme d'interception est supprimé - c'est-à-dire lorsque le vecteurX1nest supprimé de l'ensemble de répartition. Je ne pense pas que ce dernier point puisse être traité en considérant uniquement les variables centrées.

Silverfish
la source

Réponses:

47

S'il y a un terme constant dans le modèle, alors se trouve dans l'espace de colonne de (tout comme , qui vous sera utile plus tard). Le ajusté est la projection orthogonale du observé1nXY¯1nY^sur le plat formé par cet espace de colonne. Cela signifiele vecteur des résidus e = y - y est perpendiculaire au plat, et donc à 1 n . En considérant le produit scalaire, nous pouvons voirn i = 1 e i = 0 , donc les composants de eYe=yy^1ni=1nei=0edoit être égal à zéro. Puisque nous concluons que Σ n i = 1 Y i = Σ n i = 1 ^ Y i de sorte que les réponses ajustées et observées ai moyenne ˉ Y .Yi=Yi^+eii=1nYi=i=1nYi^Y¯

Vectors in subject space of multiple regression

Les lignes en pointillés dans le diagramme représentent et Y - ˉ Y 1 n , qui sont les centrées vecteurs pour les réponses observées et ajustées. Le cosinus de l'angle θ entre ces vecteurs seront donc la corrélation entre Y et Y , qui par définition est le coefficient de corrélation multiple R . Le triangle ces vecteurs forment avec le vecteur des résidus est rectangle depuis Y - ˉ Y 1 n se situe dans l'appartement , mais YY¯1nY^Y¯1nθYY^RY^Y¯1ne is orthogonal to it. Hence:

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

We could also apply Pythagoras to the triangle:

YY¯1n2=YY^2+Y^Y¯1n2

Which may be more familiar as:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Il s'agit de la décomposition des sommes des carrés, .SStotal=SSresidual+SSregression

La définition standard du coefficient de détermination est la suivante:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives R2=1sin2(θ) and with basic trigonometry we can simplify this to cos2(θ). This is the link between R2 and R.

Note how vital it was for this analysis to have fitted an intercept term, so that 1n was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of Y. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R) uses a different formula for R2 altogether.

Silverfish
la source
1
+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.
amoeba says Reinstate Monica
2
+1. Note that the figure of your answer, with "column space X", Y, Ypred as vectors etc. is what is known in multivariate statistics as "(reduced) subject space representation" (see, with further links where I've used it).
ttnphns