Intuition derrière

10

La forme fermée de w dans la régression linéaire peut s'écrire

w^=(XTX)1XTy

Comment expliquer intuitivement le rôle de (XTX)1 dans cette équation?

Darshak
la source
2
Pourriez-vous préciser ce que vous entendez par "intuitivement"? Par exemple, il y a une explication merveilleusement intuitive en termes d'espaces de produits internes présentée dans les réponses planes de Christensen aux questions complexes, mais tout le monde n'appréciera pas cette approche. Comme autre exemple, il y a une explication géométrique dans ma réponse sur stats.stackexchange.com/a/62147/919 , mais tout le monde ne considère pas les relations géométriques comme "intuitives".
whuber
Intuitivement, qu'est-ce que signifie $ (X ^ TX) ^ {- 1}? Est-ce une sorte de calcul de distance ou quelque chose, je ne le comprends pas.
Darshak
1
Cela est expliqué en détail dans la réponse que j'ai liée.
whuber
Cette question existe déjà ici, mais peut-être pas avec une réponse satisfaisante math.stackexchange.com/questions/2624986/…
Sextus Empiricus

Réponses:

5

J'ai trouvé ces messages particulièrement utiles:

Comment dériver l'estimateur des moindres carrés pour la régression linéaire multiple?

Relation entre SVD et PCA. Comment utiliser SVD pour effectuer PCA?

http://www.math.miami.edu/~armstrong/210sp13/HW7notes.pdf

Si est un n × p matrice alors la matrice X ( X T X ) - 1 X T définit une projection sur l'espace de colonne de X . Intuitivement, vous avez un système d'équations surdéterminé, mais vous voulez toujours l'utiliser pour définir une carte linéaire R pR qui mappera les lignes x i de X à quelque chose de proche des valeurs y i , i { 1 , , n }Xn×pX(XTX)1XTXRpRxiXyii{1,,n}. Nous nous contentons donc d'envoyer à la chose la plus proche de y qui peut être exprimée comme une combinaison linéaire de vos caractéristiques (les colonnes de X ). XyX

En ce qui concerne une interprétation de , je n'ai pas encore de réponse étonnante. Je sais que vous pouvez considérer ( X T X ) comme étant essentiellement la matrice de covariance de l'ensemble de données.(XTX)1(XTX)

James McKeown
la source
(XTX)
4

Point de vue géométrique

yXβVXβ^Wx1,x2,,xm

projection

Deux types de coordonnées

W

  • Lesβ sont comme des coordonnées pour un espace de coordonnées régulier. Le vecteur dans l'espace est la combinaison linéaire des vecteurszWxi
    z=β1x1+β2x1+....βmxm
  • Leα ne sont pas coordonnées au sens régulier, mais ils définissent un point dans le sous - espace . Chaque rapporte aux projections perpendiculaires sur les vecteurs . Si nous utilisons des vecteurs unitaires (pour simplifier), alors les "coordonnées" pour un vecteur peuvent être exprimées comme:Wαixixiαiz

    αi=xiTz

    et l'ensemble de toutes les coordonnées comme:

α=XTz

Cartographie entre les coordonnées etαβ

pour l'expression de "coordonnées" devient une conversion de coordonnées en "coordonnées"z=Xβαβα

α=XTXβ

Vous pouvez voir comme exprimant combien chaque projette sur l'autre(XTX)ijxixj

L'interprétation géométrique de peut alors être vue comme la carte des "coordonnées" de projection vectorielle aux coordonnées linéaires .(XTX)1αβ

β=(XTX)1α

L'expression donne les "coordonnées" de projection de et transforme en .XTyy(XTX)1β


Remarque : les "coordonnées" de projection de sont les mêmes que les "coordonnées" de projection de puisque .y y^(yy^)X

Sextus Empiricus
la source
Un compte très similaire du sujet stats.stackexchange.com/a/124892/3277 .
ttnphns
En effet très similaire. Pour moi, cette vue est très nouvelle et j'ai dû prendre une nuit pour y penser. J'ai toujours vu la régression des moindres carrés en termes de projection mais dans ce point de vue, je n'ai jamais essayé de donner une signification intuitive à la partie ou je l'ai toujours vue dans l'expression plus indirecte . (XTX)1XTy=XTXβ
Sextus Empiricus
3

En supposant que vous connaissez la régression linéaire simple: et sa solution :

yi=α+βxi+εi
β=cov[xi,yi]var[xi]

Il est facile de voir comment correspond au numérateur ci-dessus et correspond au dénominateur. Puisque nous avons affaire à des matrices, l'ordre est important. est une matrice KxK et est un vecteur Kx1. Par conséquent, l'ordre est:XyXXXXXy(XX)1Xy

Aksakal
la source
Mais cette analogie elle-même ne vous dit pas si vous pré- ou postmultipliez avec l'inverse.
kjetil b halvorsen
@kjetilbhalvorsen, j'ai mis l'ordre des opérations
Aksakal