La preuve de la diminution des coefficients par régression de crête par «décomposition spectrale»

La question semble demander une démonstration que la régression de crête réduit les estimations des coefficients vers zéro, en utilisant une décomposition spectrale. La décomposition spectrale peut être comprise comme une conséquence facile de la décomposition en valeurs singulières (SVD). Par conséquent, ce message commence par SVD. Il l'explique en termes simples et l'illustre ensuite avec des applications importantes. Ensuite, il fournit la démonstration demandée (algébrique). (L'algèbre, bien sûr, est identique à la démonstration géométrique; elle est simplement rédigée dans une langue différente.)

La source originale de cette réponse se trouve dans mes notes de cours de régression . Cette version corrige quelques erreurs mineures.

Qu'est-ce que le SVD

Toute matrice , avec , peut s'écrire où $n\times p$ $X$ $p \le n$

X = U D V^{'}

$X = UDV^\prime$

$U$ est une matrice . $n\times p$
- Les colonnes de ont une longueur de . $U$ $1$
- Les colonnes de sont mutuellement orthogonales. $U$
- Ils sont appelés les composantes principales de . $X$
$V$ est une matrice . $p \times p$
- Les colonnes de ont une longueur de . $V$ $1$
- Les colonnes de sont orthogonales entre elles. $V$
- Cela fait de une rotation de . $V$ $\mathbb{R}^p$
$D$ est une matrice diagonale . $p \times p$
- Les éléments diagonaux ne sont pas négatifs. Ce sont les valeurs singulières de . $d_{11}, d_{22}, \ldots, d_{pp}$ $X$
- Si nous le souhaitons, nous pouvons les commander du plus grand au plus petit.

Les critères (1) et (2) affirment que et sont des matrices orthonormales . Ils peuvent être parfaitement résumés par les conditions $U$ $V$

U^{'} U = 1_{p}, V^{'} V = 1_{p} .

$U^\prime U = 1_p,\ V^\prime V = 1_p.$

En conséquence (que représente une rotation), également. Ceci sera utilisé dans la dérivation Ridge Regression ci-dessous. $V$ $VV^\prime = 1_p$

Ce qu'il fait pour nous

Cela peut simplifier les formules. Cela fonctionne à la fois algébriquement et conceptuellement. Voici quelques exemples.

Les équations normales

Considérons la régression où, comme d'habitude, les sont indépendants et identiquement distribués selon une loi qui a une espérance nulle et une variance finie . La solution des moindres carrés via la normale équations est L'application de la SVD et la simplification du désordre algébrique résultant (ce qui est facile) fournit un bon aperçu: $y = X\beta + \varepsilon$ $\varepsilon$ $\sigma^2$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat\beta = (X^\prime X)^{-1} X^\prime y.$

(X^{'} X)^{- 1} X^{'} = ((U D V^{'})^{'} (U D V^{'}))^{- 1} (U D V^{'})^{'} = (V D U^{'} U D V^{'})^{- 1} (V D U^{'}) = V D^{- 2} V^{'} V D U^{'} = V D^{- 1} U^{'} .

$(X^\prime X)^{-1} X^\prime = ((UDV^\prime)^\prime (UDV^\prime))^{-1} (UDV^\prime)^\prime \\= (VDU^\prime U D V^\prime)^{-1} (VDU^\prime) = VD^{-2}V^\prime VDU^\prime = VD^{-1}U^\prime.$

La seule différence entre cela et est que les inverses des éléments de sont utilisées! En d'autres termes, "l'équation" est résolue en "inversant" : cette pseudo-inversion annule les rotations et (simplement en les transposant) et annule la multiplication (représentée par ) séparément dans chaque principe direction. $X^\prime = VDU^\prime$ $D$ $y=X\beta$ $X$ $U$ $V^\prime$ $D$

Pour référence ultérieure, notez que « mis en rotation » estimations sont des combinaisons linéaires de réponses « rotation » . Les coefficients sont des inverses des éléments diagonaux (positifs) de , égaux à . $V^\prime \hat\beta$ $U^\prime y$ $D$ $d_{ii}^{-1}$

Covariance des estimations de coefficient

Rappelons que la covariance des estimations est En utilisant le SVD, cela devient En d'autres termes, la covariance agit comme celle de variables orthogonales , chacune avec des variances

Cov (\hat{β}) = σ^{2} (X^{'} X)^{- 1} .

$\text{Cov}(\hat\beta) = \sigma^2(X^\prime X)^{-1}.$

σ^{2} (V D^{2} V^{'})^{- 1} = σ^{2} V D^{- 2} V^{'} .

$\sigma^2(V D^2 V^\prime)^{-1} = \sigma^2 V D^{-2} V^\prime.$

k

$k$

d_{i i}^{2}

$d^2_{ii}$ , qui ont été tournés dans

R^{k}

$\mathbb{R}^k$

La matrice Hat

H = X (X^{'} X)^{- 1} X^{'} .

$H = X(X^\prime X)^{-1} X^\prime.$

H = (U D V^{'}) (V D^{- 1} U^{'}) = U U^{'} .

$H = (UDV^\prime)(VD^{-1}U^\prime) = UU^\prime.$

Analyse propre (décomposition spectrale)

X^{'} X = V D U^{'} U D V^{'} = V D^{2} V^{'}

$X^\prime X = VDU^\prime U D V^\prime = VD^2V^\prime$

X X^{'} = U D V^{'} V D U^{'} = U D^{2} U^{'},

$XX^\prime = UDV^\prime VDU^\prime = UD^2U^\prime,$

$X^\prime X$ $XX^\prime$
$V$ $X^\prime X$
$U$ $X X^\prime$

La SVD peut diagnostiquer et résoudre les problèmes de colinéarité.

Rapprocher les régresseurs

$UDV^\prime$ $U$ $y$

Régression de crête

$X$ $y$ $X$ $\lambda \gt 0$

\begin{aligned} {\hat{β}}_{R} & = (X^{'} X + λ)^{- 1} X^{'} y \\ = (V D^{2} V^{'} + λ 1_{p})^{- 1} V D U^{'} y \\ = (V D^{2} V^{'} + λ V V^{'})^{- 1} V D U^{'} y \\ = (V (D^{2} + λ) V^{'})^{- 1} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} V^{'} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} D U^{'} y . \end{aligned}

$\begin{aligned}\hat\beta_R &= (X^\prime X + \lambda)^{-1}X^\prime y \\ &= (VD^2V^\prime + \lambda\,1_p)^{-1}VDU^\prime y \\ &= (VD^2V^\prime + \lambda V V^\prime)^{-1}VDU^\prime y \\ &= (V(D^2 + \lambda)V^\prime)^{-1} VDU^\prime y \\ &= V(D^2+\lambda)^{-1}V^\prime V DU^\prime y \\ &= V(D^2 + \lambda)^{-1} D U^\prime y.\end{aligned}$

$\hat\beta$ $D^{-1} = D^{-2}D$ $(D^2+\lambda)^{-1}D$ $D^2/(D^2+\lambda)$ $\lambda \gt 0$

$V^\prime\hat\beta_R$ $U^\prime y$ $d_{ii}^{-1}$ $d_{ii}^2/(d_{ii}^2 + \lambda)$ $\lambda$ $\hat\beta_R$

$d_{ii}^{-1}$

whuber
la source

@Glen_b C'est un bon point: je devais être explicite sur la fraction que je considérais! Je vais arranger ça.

whuber

U U^{'} = 1_{p}

$UU^\prime=1_p$

U

$U$

1

$1$

\sqrt{1} = 1

$\sqrt{1}=1$

V V^{'} = 1_{p}

$VV^\prime=1_p$

V

$V$

V^{- 1}

$V^{-1}$

(V^{- 1})^{'} (V^{- 1}) = 1_{p}

$(V^{-1})^\prime(V^{-1})=1_p$

V^{- 1} = V^{'}

$V^{-1}=V^\prime$

V V^{'} = (V^{'})^{'} V^{'} = 1_{p}

$VV^\prime=(V^\prime)^\prime V^\prime=1_p$

@Vimal Merci pour la bonne suggestion. J'ai maintenant inclus une explication dans la section "Équations normales" où le modèle de régression est introduit.