J'ai compris comment la régression de crête rétrécit géométriquement les coefficients vers zéro. De plus, je sais comment le prouver dans le cas spécial "Orthonormal Case", mais je ne sais pas comment cela fonctionne dans le cas général via la "décomposition spectrale".
20
Réponses:
La question semble demander une démonstration que la régression de crête réduit les estimations des coefficients vers zéro, en utilisant une décomposition spectrale. La décomposition spectrale peut être comprise comme une conséquence facile de la décomposition en valeurs singulières (SVD). Par conséquent, ce message commence par SVD. Il l'explique en termes simples et l'illustre ensuite avec des applications importantes. Ensuite, il fournit la démonstration demandée (algébrique). (L'algèbre, bien sûr, est identique à la démonstration géométrique; elle est simplement rédigée dans une langue différente.)
La source originale de cette réponse se trouve dans mes notes de cours de régression . Cette version corrige quelques erreurs mineures.
Qu'est-ce que le SVD
Toute matrice , avec , peut s'écrire oùX p ≤ n X = U D V ′n × p X p ≤ n
n × pU est une matrice .n × p
p × pV est une matrice .p × p
p × pré est une matrice diagonale .p × p
Les critères (1) et (2) affirment que et sont des matrices orthonormales . Ils peuvent être parfaitement résumés par les conditionsVU V
En conséquence (que représente une rotation), également. Ceci sera utilisé dans la dérivation Ridge Regression ci-dessous.V V ′ = 1 pV VV′= 1p
Ce qu'il fait pour nous
Cela peut simplifier les formules. Cela fonctionne à la fois algébriquement et conceptuellement. Voici quelques exemples.
Les équations normales
Considérons la régression où, comme d'habitude, les ε sont indépendants et identiquement distribués selon une loi qui a une espérance nulle et une variance finie σ 2 . La solution des moindres carrés via la normale équations est β = ( X ' X ) - 1 X ' y . L'application de la SVD et la simplification du désordre algébrique résultant (ce qui est facile) fournit un bon aperçu:y= Xβ+ ε ε σ2
La seule différence entre cela et est que les inverses des éléments de D sont utilisées! En d'autres termes, "l'équation" y = X β est résolue en "inversant" X : cette pseudo-inversion annule les rotations U et V ' (simplement en les transposant) et annule la multiplication (représentée par D ) séparément dans chaque principe direction.X′= VD U′ ré y= Xβ X U V′ ré
Pour référence ultérieure, notez que « mis en rotation » estimations β sont des combinaisons linéaires de réponses « rotation » U " de y . Les coefficients sont des inverses des éléments diagonaux (positifs) de D , égaux à d - 1 i i .V′β^ U′y ré ré- 1je je
Covariance des estimations de coefficient
Rappelons que la covariance des estimations est En utilisant le SVD, cela devient σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . En d'autres termes, la covariance agit comme celle de k variables orthogonales , chacune avec des variances d 2 i i
La matrice Hat
Analyse propre (décomposition spectrale)
La SVD peut diagnostiquer et résoudre les problèmes de colinéarité.
Rapprocher les régresseurs
Régression de crête
la source