Je recherche de la documentation sur la régression de crête négative .
En bref, il est une généralisation de la régression linéaire de la crête négative en utilisant dans la formule
Le cas positif a une belle théorie: en tant que fonction de perte, en tant que contrainte, en tant que précédent Bayes ... mais je me sens perdu avec la version négative avec uniquement la formule ci-dessus. Cela s'avère utile pour ce que je fais, mais je n'arrive pas à l'interpréter clairement.
Connaissez-vous un texte d'introduction sérieux sur la crête négative? Comment l'interpréter?
regression
regularization
ridge-regression
Benoit Sanchez
la source
la source
Réponses:
Voici une illustration géométrique de ce qui se passe avec la crête négative.
Je vais envisager des estimateurs de la forme β λ = ( X ⊤ X + λ I ) - 1 X ⊤ y provenant de la fonction de perte L λ = ‖ y - X β ‖ 2 + λ ‖ β ‖ 2 . Voici une illustration assez standard de ce qui se passe dans un cas bidimensionnel avec λ ∈ [ 0 , ∞ )
Ce qui est vraiment sympa, c'est qu'on peut le dessiner sur la même figure de la même manière: les bétas sont donnés par des points où les cercles touchent les ellipses de l'intérieur :
Lorsque , une logique similaire s'applique, permettant de continuer le chemin de crête de l'autre côté de l'estimateur OLS. Maintenant, les cercles touchent les ellipses de l'extérieur. la limite, les bêtas approchent de la direction PC2 (mais cela se passe bien en dehors de ce croquis):λ ∈ ( - s2m i n, 0 ]
La plage est en quelque sorte une lacune énergétique : les estimateurs n'y vivent pas sur la même courbe.( - s2m a x, - s2m i n)
MISE À JOUR: Dans les commentaires @MartinL explique que pour la perte n'a pas de minimum mais a un maximum. Et ce maximum est donné par . C'est pourquoi la même construction géométrique avec le toucher cercle / ellipse continue de fonctionner: nous recherchons toujours des points à gradient nul. Lorsque , la perteλ < - s2m a x Lλ β^λ - s2m i n< λ ≤ 0 Lλ β^λ λ > 0
la source