Je me souviens avoir lu quelque part sur le Web une connexion entre la régression de crête (avec la régularisation ) et la régression PCA: lors de l'utilisation de la régression régularisée avec un hyperparamètre , si , la régression équivaut à supprimer le Variable PC avec la plus petite valeur propre.ℓ 2 λ λ → 0
- Pourquoi est-ce vrai?
- Cela a-t-il quelque chose à voir avec la procédure d'optimisation? Naïvement, je m'attendais à ce qu'il soit équivalent à OLS.
- Quelqu'un at-il une référence pour cela?
Réponses:
Soit la matrice prédictive centrée et considérons sa décomposition en valeur singulière avec étant une matrice diagonale avec des éléments diagonaux . n × p X = U S V ⊤ S s iX n × p X = U S V⊤ S sje
Les valeurs ajustées de la régression des moindres carrés ordinaires (OLS) sont données parLes valeurs ajustées de la régression des crêtes sont données parLes valeurs ajustées de la régression PCA (PCR) avec composantes sont données parY ridge=Xβridge=X(X⊤X+λI)-1X⊤y=U
De là, nous pouvons voir que:
Si alors .y r i d g e = y O L Sλ = 0 y^r i d g e= y^O L S
Si alors plus la valeur singulière , moins elle sera pénalisée dans la régression de crête. Les petites valeurs singulières ( et plus petites) sont les plus pénalisées.s i s 2 i ≈ λλ > 0 sje s2je≈ λ
En revanche, dans la régression PCA, les grandes valeurs singulières sont conservées intactes et les petites (après un certain nombre ) sont complètement supprimées. Cela correspondrait à pour les premiers et pour les autres.λ = 0 k λ = ∞k λ = 0 k λ = ∞
Cela signifie que la régression des crêtes peut être considérée comme une "version fluide" de la PCR.
(Cette intuition est utile mais ne tient pas toujours; par exemple, si tous les sont approximativement égaux, alors la régression de crête ne pourra pénaliser que toutes les composantes principales de peu près également et peut différer fortement de la PCR).Xsje X
La régression des crêtes a tendance à mieux fonctionner en pratique (par exemple, pour avoir des performances croisées plus élevées).
Répondre maintenant spécifiquement à votre question: si , alors . Je ne vois pas comment cela peut correspondre à la suppression du plus petit . Je pense que cela est faux.y r i d g e → y O L S s iλ → 0 y^r i d g e→ y^O L S sje
Une bonne référence est The Elements of Statistical Learning , Section 3.4.1 "Ridge regression".
Voir aussi ce fil: Interprétation de la régularisation des crêtes en régression et en particulier la réponse de @BrianBorchers.
la source
Elements of Statistical Learning a une grande discussion sur ce lien.
La façon dont j'ai interprété cette connexion et cette logique est la suivante:
La connexion PCA est que Ridge Regression calcule les combinaisons linéaires des entités pour déterminer où se produit la multicolinéarité. Les combinaisons linéaires de caractéristiques (analyse en composantes principales) avec la plus petite variance (et donc des valeurs singulières plus petites et des valeurs propres plus petites dans l'ACP) sont celles qui sont le plus pénalisées.
Pense-y de cette façon; pour les combinaisons linéaires d'entités avec la plus petite variance, nous avons trouvé les entités qui se ressemblent le plus, provoquant ainsi la multicolinéarité. Étant donné que Ridge ne réduit pas l'ensemble des entités, quelle que soit la direction décrite par cette combinaison linéaire, l'entité d'origine correspondant à cette direction est la plus pénalisée.
la source
Considérons l'équation linéaire et le SVD de , où est la matrice diagonale des valeurs singulières.X β= y, X X = USVT, S =diag( sje)
Les moindres carrés ordinaires déterminent le vecteur de paramètres as Cependant, cette approche échoue dès qu'il y a une valeur singulière qui est zéro (car alors l'inverse n'existe pas). De plus, même si aucun n'est excessivement nul, des valeurs singulières numériquement petites peuvent rendre la matrice mal conditionnée et conduire à une solution qui est très sensible aux erreurs.β βO L S= VS- 1UT sje
La régression de crête et l'ACP présentent deux méthodes pour éviter ces problèmes. La régression des crêtes remplace dans l'équation ci-dessus pour parS- 1 β S-1crêteβcrête= diag ( sjes2je+ α) ,= V S- 1crêteUT
PCA remplace par wehre est la fonction pas à pas et est le paramètre de seuil.S- 1 S- 1PCAβPCA= diag ( 1sjeθ ( sje- γ) ),= V S- 1PCAUT θ γ
Les deux méthodes affaiblissent ainsi l'impact des sous-espaces correspondant aux petites valeurs. PCA fait cela de manière difficile, tandis que la crête est une approche plus fluide.
Plus abstraitement, n'hésitez pas à créer votre propre schéma de régularisation où est une fonction qui devrait approcher zéro pour et pour large. Mais rappelez-vous, il n'y a pas de déjeuner gratuit.S- 1myReg= diag ( R ( sje) ), R ( x ) x → 0 R ( x ) → x- 1 X
la source