Relation entre la régression de crête et la régression PCA

19

Je me souviens avoir lu quelque part sur le Web une connexion entre la régression de crête (avec la régularisation ) et la régression PCA: lors de l'utilisation de la régression régularisée avec un hyperparamètre , si , la régression équivaut à supprimer le Variable PC avec la plus petite valeur propre.2 λ λ 022λλ0

  • Pourquoi est-ce vrai?
  • Cela a-t-il quelque chose à voir avec la procédure d'optimisation? Naïvement, je m'attendais à ce qu'il soit équivalent à OLS.
  • Quelqu'un at-il une référence pour cela?
Jose G
la source
1
Pourriez-vous expliquer plus explicitement comment l'APC et la régression sont liées dans votre déclaration? La régression distingue les variables dépendantes des variables indépendantes, alors que rien de tel ne se produit dans l'ACP. Alors, à quelles variables appliquez-vous PCA? Il ne peut pas s'agir uniquement de variables indépendantes, car cela aurait peu à voir avec la régression. Mais s'il est appliqué à toutes les variables, alors les vecteurs propres sont des combinaisons linéaires de tous. Que pourrait signifier la suppression d' un tel composant de l'ensemble de données, car il implique la variable dépendante?
whuber
1
La connexion (si je comprends bien), est que si vous utilisez une très petite pénalité de régularisation, une régression régularisée en L2 supprimerait la variable qui a la plus petite valeur propre. Par conséquent, faire SVD sur la matrice de conception et supprimer la variable avec la plus petite valeur propre équivaut à une régression avec une pénalité de régularisation "douce" ... C'est l'explication la plus proche que j'ai trouvée à ce sujet: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G
3
Votre référence semble démontrer le contraire de ce que vous dites dans vos commentaires: pour small , il y a très peu de changement dans les résultats. Rien n'est supprimé du tout. En fait, plusieurs diapositives semblent viser à souligner la différence entre la régression pénalisée (dans laquelle les estimations sont réduites à ) et la "régression PCA" (dans laquelle les plus petites composantes sont entièrement supprimées - ce qui peut être une très mauvaise chose dans certaines circonstances). L 2 0λL20
whuber
2
Mmm .. a trouvé une autre référence: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf Dans la diapositive " et composants principaux", il est dit que la régression de crête projette y sur ces composants avec de grands dj * soupir *yridge
Jose G
3
Avez-vous remarqué que p. 14 de cette dernière référence répond explicitement à votre question?
whuber

Réponses:

23

Soit la matrice prédictive centrée et considérons sa décomposition en valeur singulière avec étant une matrice diagonale avec des éléments diagonaux . n × p X = U S VS s iXn×pX=USVSsje

Les valeurs ajustées de la régression des moindres carrés ordinaires (OLS) sont données parLes valeurs ajustées de la régression des crêtes sont données parLes valeurs ajustées de la régression PCA (PCR) avec composantes sont données parY ridge=Xβridge=X(XX+λI)-1Xy=U

y^OLS=XβOLS=X(XX)-1Xy=UUy.
k y PCR=XPCAβPCR=U
y^rjege=Xβrjege=X(XX+λje)-1Xy=Ujeuneg{sje2sje2+λ}Uy.
kk
y^PCR=XPCUNEβPCR=Ujeuneg{1,,1,0,0}Uy,
où il y en a suivis de zéros.k

De là, nous pouvons voir que:

  1. Si alors .y r i d g e = y O L Sλ=0y^rjege=y^OLS

  2. Si alors plus la valeur singulière , moins elle sera pénalisée dans la régression de crête. Les petites valeurs singulières ( et plus petites) sont les plus pénalisées.s i s 2 iλλ>0sjesje2λ

  3. En revanche, dans la régression PCA, les grandes valeurs singulières sont conservées intactes et les petites (après un certain nombre ) sont complètement supprimées. Cela correspondrait à pour les premiers et pour les autres.λ = 0 k λ = kλ=0kλ=

  4. Cela signifie que la régression des crêtes peut être considérée comme une "version fluide" de la PCR.

    (Cette intuition est utile mais ne tient pas toujours; par exemple, si tous les sont approximativement égaux, alors la régression de crête ne pourra pénaliser que toutes les composantes principales de peu près également et peut différer fortement de la PCR).XsjeX

  5. La régression des crêtes a tendance à mieux fonctionner en pratique (par exemple, pour avoir des performances croisées plus élevées).

  6. Répondre maintenant spécifiquement à votre question: si , alors . Je ne vois pas comment cela peut correspondre à la suppression du plus petit . Je pense que cela est faux.y r i d g ey O L S s iλ0y^rjegey^OLSsje

Une bonne référence est The Elements of Statistical Learning , Section 3.4.1 "Ridge regression".


Voir aussi ce fil: Interprétation de la régularisation des crêtes en régression et en particulier la réponse de @BrianBorchers.

amibe dit réintégrer Monica
la source
Serait-il jamais judicieux de seuiller en douceur les valeurs singulières, max ( thresh, 0)? (Seuils souples de régression Lasso , pas le spectre.)sje-βLeunest-squuneres
denis
Une correction à votre excellente réponse: les valeurs ajustées dans la régression sur les premiers PC sont en fait C'est un exercice à la fin du chapitre que vous mentionnez. k
Udiag(11,12,...,1k,0,...,0)UTy
Matthias Schmidtblaicher
C'est beau.
xxx222
6

Elements of Statistical Learning a une grande discussion sur ce lien.

La façon dont j'ai interprété cette connexion et cette logique est la suivante:

  • PCA est une combinaison linéaire des variables d'entité, essayant de maximiser la variance des données expliquées par le nouvel espace.
  • Les données qui souffrent de multicollinéarité (ou de plus de prédicteurs que les lignes de données) conduisent à une matrice de covariance qui n'a pas le rang complet.
  • Avec cette matrice de covariance, nous ne pouvons pas inverser pour déterminer la solution des moindres carrés; cela provoque l'explosion numérique des coefficients des moindres carrés jusqu'à l'infini.
  • La régression de crête introduit la pénalité Lambda sur la matrice de covariance pour permettre l'inversion de la matrice et la convergence des coefficients LS.

La connexion PCA est que Ridge Regression calcule les combinaisons linéaires des entités pour déterminer où se produit la multicolinéarité. Les combinaisons linéaires de caractéristiques (analyse en composantes principales) avec la plus petite variance (et donc des valeurs singulières plus petites et des valeurs propres plus petites dans l'ACP) sont celles qui sont le plus pénalisées.

Pense-y de cette façon; pour les combinaisons linéaires d'entités avec la plus petite variance, nous avons trouvé les entités qui se ressemblent le plus, provoquant ainsi la multicolinéarité. Étant donné que Ridge ne réduit pas l'ensemble des entités, quelle que soit la direction décrite par cette combinaison linéaire, l'entité d'origine correspondant à cette direction est la plus pénalisée.

MDornbos
la source
2

Considérons l'équation linéaire et le SVD de , où est la matrice diagonale des valeurs singulières.

Xβ=y,
X
X=USVT,
S=diag(sje)

Les moindres carrés ordinaires déterminent le vecteur de paramètres as Cependant, cette approche échoue dès qu'il y a une valeur singulière qui est zéro (car alors l'inverse n'existe pas). De plus, même si aucun n'est excessivement nul, des valeurs singulières numériquement petites peuvent rendre la matrice mal conditionnée et conduire à une solution qui est très sensible aux erreurs.β

βOLS=VS-1UT
sje

La régression de crête et l'ACP présentent deux méthodes pour éviter ces problèmes. La régression des crêtes remplace dans l'équation ci-dessus pour par S-1β

Scrête-1=diag(sjesje2+α),βcrête= VScrête-1UT

PCA remplace par wehre est la fonction pas à pas et est le paramètre de seuil.S-1

SPCA-1=diag(1sjeθ(sje-γ)),βPCA= VSPCA-1UT
θγ

Les deux méthodes affaiblissent ainsi l'impact des sous-espaces correspondant aux petites valeurs. PCA fait cela de manière difficile, tandis que la crête est une approche plus fluide.

Plus abstraitement, n'hésitez pas à créer votre propre schéma de régularisation où est une fonction qui devrait approcher zéro pour et pour large. Mais rappelez-vous, il n'y a pas de déjeuner gratuit.

SmyReg-1=diag(R(sje)),
R(X)X0R(X)X-1X

davidhigh
la source