En régression linéaire, je suis tombé sur un résultat délicieux que si nous ajustons le modèle
puis, si nous normalisons et données , et ,
Cela me semble être une version à 2 variables de la régression pour , ce qui est agréable.
Mais la seule preuve que je connaisse n'est en aucun cas constructive ou perspicace (voir ci-dessous), et pourtant, à y regarder, il semble que cela devrait être facilement compréhensible.
Exemples de réflexions:
- Les et nous donnent la 'proportion' de et en , et donc nous prenons des proportions respectives de leurs corrélations ...β 2 X 1 X 2 Y
- Les s sont des corrélations partielles, est la corrélation multiple au carré ... corrélations multipliées par des corrélations partielles ...R 2
- Si nous orthogonisons d'abord, alors les seront ... ce résultat a-t-il un sens géométrique?C o v / V a r
Aucun de ces fils ne semble me mener nulle part. Quelqu'un peut-il expliquer clairement comment comprendre ce résultat?
Preuve insatisfaisante
et
QED.
Réponses:
La matrice du chapeau est idempotente.
(Il s'agit d'une façon linéaire et algébrique de déclarer que l'OLS est une projection orthogonale du vecteur de réponse sur l'espace couvert par les variables.)
Rappelons que par définition
où
est la somme des carrés des valeurs prédites (centrées) et
est la somme des carrés des valeurs de réponse (centrées). La standardisation préalable de en variance unitaire implique égalementY
Rappelons également que les coefficients estimés sont donnés par
D'où
où est la « matrice de chapeau » effectuer la projection de sur ses moindres carrés . Il est symétrique (ce qui est évident de par sa forme même) et idempotent . Voici une preuve de ce dernier pour ceux qui ne connaissent pas ce résultat. Il s'agit simplement de mélanger les parenthèses:H Y Y^
Donc
Le mouvement crucial au milieu a utilisé l'idempotence de la matrice du chapeau. Le côté droit est ta formule magique car est la (ligne) vecteur des coefficients de corrélation entre et les colonnes de .1nY′X Y X
la source
^{-}
au lieu de^{-1}
partout?Les trois formules suivantes sont bien connues, elles se retrouvent dans de nombreux ouvrages sur la régression linéaire. Il n'est pas difficile de les dériver.
Si vous substituez les deux bêtas dans votre équation , vous obtiendrez la formule ci-dessus pour le carré R.R2=rYX1β1+rYX2β2
Voici un "aperçu" géométrique. Ci-dessous, deux images montrant la régression de par et . Ce type de représentation est connu sous le nom de variables en tant que vecteurs dans l'espace sujet (veuillez lire de quoi il s'agit). Les images sont dessinées après que les trois variables ont été centrées, et donc (1) la longueur de chaque vecteur = st. écart de la variable respective, et (2) angle (son cosinus) entre tous les deux vecteurs = corrélation entre les variables respectives.Y X1 X2
L'image de gauche représente les coordonnées de biais de sur les variables et . Nous savons que ces coordonnées relient les coefficients de régression. A savoir, les coordonnées sont: et .Y^ X1 X2 b1|X1|=b1σX1 b2|X2|=b2σX2
Et l'image de droite montre les coordonnées perpendiculaires correspondantes . Nous savons que ces coordonnées relient les coefficients de corrélation d'ordre zéro (ce sont des cosinus de projections orthogonales). Si est la corrélation entre et et est la corrélation entre et alors la coordonnée est . De même pour l'autre coordonnée, .r1 Y X1 r∗1 Y^ X1 r1|Y|=r1σY=r∗1|Y^|=r∗1σY^ r2|Y|=r2σY=r∗2|Y^|=r∗2σY^
Jusqu'à présent, il s'agissait d'explications générales sur la représentation des vecteurs de régression linéaire. Nous passons maintenant à la tâche pour montrer comment cela peut conduire à .R2=r1β1+r2β2
Tout d'abord, rappelez-vous que dans leur question @Corone a mis en avant la condition que l'expression est vraie lorsque les trois variables sont normalisées , c'est-à-dire non seulement centrées mais également mises à l'échelle à la variance 1. Ensuite (c'est-à-dire impliquant pour être les "parties actives" des vecteurs) nous avons des coordonnées égales à: ; ; ; ; ainsi que. Redessinez, dans ces conditions, juste le "plan X" des images ci-dessus:|X1|=|X2|=|Y|=1 b1|X1|=β1 b2|X2|=β2 r1|Y|=r1 r2|Y|=r2 R=|Y^|/|Y|=|Y^|
Sur la photo, nous avons une paire de coordonnées perpendiculaires et une paire de coordonnées obliques, du même vecteur de longueur . Il existe une règle générale pour obtenir des coordonnées perpendiculaires à partir de biais (ou inverses): , où est une matrice de coordonnées perpendiculaires; est la même matrice de tailles asymétriques; et sont la matrice symétrique d'angles (cosinus) entre les axes non orthogonaux.Y^ R P=SC P S C
points X axes
axes X axes
Remplacez ces s exprimés via s dans l'instruction @ Corone , et vous obtiendrez ce , - ce qui est vrai , car c'est exactement la façon dont une diagonale d'un parallélogramme (teintée sur l'image) est exprimée via ses côtés adjacents (la quantité étant le produit scalaire).β R 2 = r 1 β 1 + r 2 β 2 R 2 = β 2 1 + β 2 2 + 2 β 1 β 2 r 12 β 1 β 2 r 12r β R2=r1β1+r2β2 R2=β21+β22+2β1β2r12 β1β2r12
Cette même chose est vraie pour n'importe quel nombre de prédicteurs X. Malheureusement, il est impossible de dessiner les mêmes images avec de nombreux prédicteurs.
la source