La preuve de la diminution des coefficients par régression de crête par «décomposition spectrale»

20

J'ai compris comment la régression de crête rétrécit géométriquement les coefficients vers zéro. De plus, je sais comment le prouver dans le cas spécial "Orthonormal Case", mais je ne sais pas comment cela fonctionne dans le cas général via la "décomposition spectrale".

jeza
la source
4
Vous avez déclaré que vous étiez confus, mais quelle est votre question?
whuber

Réponses:

30

La question semble demander une démonstration que la régression de crête réduit les estimations des coefficients vers zéro, en utilisant une décomposition spectrale. La décomposition spectrale peut être comprise comme une conséquence facile de la décomposition en valeurs singulières (SVD). Par conséquent, ce message commence par SVD. Il l'explique en termes simples et l'illustre ensuite avec des applications importantes. Ensuite, il fournit la démonstration demandée (algébrique). (L'algèbre, bien sûr, est identique à la démonstration géométrique; elle est simplement rédigée dans une langue différente.)

La source originale de cette réponse se trouve dans mes notes de cours de régression . Cette version corrige quelques erreurs mineures.


Qu'est-ce que le SVD

Toute matrice , avec , peut s'écrire oùX p n X = U D V n×pXpn

X=UDV
  1. n × pU est une matrice .n×p

    • Les colonnes de ont une longueur de .1U1
    • Les colonnes de sont mutuellement orthogonales.U
    • Ils sont appelés les composantes principales de .X
  2. p × pV est une matrice .p×p

    • Les colonnes de ont une longueur de .1V1
    • Les colonnes de sont orthogonales entre elles.V
    • Cela fait de une rotation de .R pVRp
  3. p × pD est une matrice diagonale .p×p

    • Les éléments diagonaux ne sont pas négatifs. Ce sont les valeurs singulières de . Xd11,d22,,dppX
    • Si nous le souhaitons, nous pouvons les commander du plus grand au plus petit.

Les critères (1) et (2) affirment que et sont des matrices orthonormales . Ils peuvent être parfaitement résumés par les conditionsVUV

UU=1p, VV=1p.

En conséquence (que représente une rotation), également. Ceci sera utilisé dans la dérivation Ridge Regression ci-dessous.V V = 1 pVVV=1p

Ce qu'il fait pour nous

Cela peut simplifier les formules. Cela fonctionne à la fois algébriquement et conceptuellement. Voici quelques exemples.

Les équations normales

Considérons la régression où, comme d'habitude, les ε sont indépendants et identiquement distribués selon une loi qui a une espérance nulle et une variance finie σ 2 . La solution des moindres carrés via la normale équations est β = ( X ' X ) - 1 X ' y . L'application de la SVD et la simplification du désordre algébrique résultant (ce qui est facile) fournit un bon aperçu:y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

La seule différence entre cela et est que les inverses des éléments de D sont utilisées! En d'autres termes, "l'équation" y = X β est résolue en "inversant" X : cette pseudo-inversion annule les rotations U et V ' (simplement en les transposant) et annule la multiplication (représentée par D ) séparément dans chaque principe direction.X=VDUDy=XβXUVD

Pour référence ultérieure, notez que « mis en rotation » estimations β sont des combinaisons linéaires de réponses « rotation » U " de y . Les coefficients sont des inverses des éléments diagonaux (positifs) de D , égaux à d - 1 i i .Vβ^UyDdii1

Covariance des estimations de coefficient

Rappelons que la covariance des estimations est En utilisant le SVD, cela devient σ 2 ( V D 2 V ) - 1 = σ 2 V D - 2 V . En d'autres termes, la covariance agit comme celle de k variables orthogonales , chacune avec des variances d 2 i i

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2, qui ont été tournés dans .Rk

La matrice Hat

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Analyse propre (décomposition spectrale)

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • XXXX
  • VXX
  • UXX

La SVD peut diagnostiquer et résoudre les problèmes de colinéarité.

Rapprocher les régresseurs

UDVUy

Régression de crête

XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

β^D1=D2D(D2+λ)1DD2/(D2+λ)λ>0


Vβ^RUydii1dii2/(dii2+λ)λβ^R

dii1

whuber
la source
1
@Glen_b C'est un bon point: je devais être explicite sur la fraction que je considérais! Je vais arranger ça.
whuber
1
UU=1pU11=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
1
@Vimal Merci pour la bonne suggestion. J'ai maintenant inclus une explication dans la section "Équations normales" où le modèle de régression est introduit.
whuber
1
X
VDU=X=X=UDV.
U=VX
1
y^