Comprendre la régression de crête négative

12

Je recherche de la documentation sur la régression de crête négative .

En bref, il est une généralisation de la régression linéaire de la crête négative en utilisant λ dans la formule

β^=(XX+λI)1Xy.
Le cas positif a une belle théorie: en tant que fonction de perte, en tant que contrainte, en tant que précédent Bayes ... mais je me sens perdu avec la version négative avec uniquement la formule ci-dessus. Cela s'avère utile pour ce que je fais, mais je n'arrive pas à l'interpréter clairement.

Connaissez-vous un texte d'introduction sérieux sur la crête négative? Comment l'interpréter?

Benoit Sanchez
la source
1
Je ne connais aucun texte d'introduction qui en parle, mais cette source peut être éclairante, en particulier la discussion au bas de la page 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents
Ryan Simmons
1
Dans le cas où ce lien disparaîtrait à l'avenir, la citation complète est: Björkström, A. & Sundberg, R. "Une vue généralisée sur la régression du continuum". Scandinavian Journal of Statistics, 26: 1 (1999): pp.17-30
Ryan Simmons
2
Merci beaucoup. Cela donne une interprétation claire de la crête via CR lorsque (la plus grande valeur propre de la matrice de covariance). Toujours à la recherche d'une interprétation avec λ > - λ 1 ...λ<λ1λ>λ1
Benoit Sanchez
Notez dans ce développement de la régression des crêtes à partir de la régularisation de Tikhonov que la régularisation de Tikhonov devient α 2 I pour la régression des crêtes. Par la suite, α 2 est généralement remplacé par λ . La seule façon de rendre ce négatif est que α soit imaginaire, c'est-à-dire un multiple de i = ΓTΓα2Iα2λα . OK, maintenant quoi? Où voulez-vous aller avec? i=1
Carl
Crête négative mentionnée ici: stats.stackexchange.com/questions/328630/… avec quelques liens
kjetil b halvorsen

Réponses:

12

Voici une illustration géométrique de ce qui se passe avec la crête négative.

Je vais envisager des estimateurs de la forme β λ = ( XX + λ I ) - 1 Xy provenant de la fonction de perte L λ = y - X β 2 + λ β 2 . Voici une illustration assez standard de ce qui se passe dans un cas bidimensionnel avec λ [ 0 , )

β^λ=(XX+λje)-1Xy
Lλ=y-Xβ2+λβ2.
λ[0,). Zero lambda correspond à la solution OLS, infinite lambda réduit le beta estimé à zéro:

entrez la description de l'image ici

λ(-,-smax2)smuneXXβ^λ-smax2(XX+λje)Xβ^λ pointant dans la direction de PC1 mais avec une valeur absolue croissante à l'infini.

Ce qui est vraiment sympa, c'est qu'on peut le dessiner sur la même figure de la même manière: les bétas sont donnés par des points où les cercles touchent les ellipses de l'intérieur :

entrez la description de l'image ici

Lorsque , une logique similaire s'applique, permettant de continuer le chemin de crête de l'autre côté de l'estimateur OLS. Maintenant, les cercles touchent les ellipses de l'extérieur. la limite, les bêtas approchent de la direction PC2 (mais cela se passe bien en dehors de ce croquis):λ(-smjen2,0]

entrez la description de l'image ici

La plage est en quelque sorte une lacune énergétique : les estimateurs n'y vivent pas sur la même courbe.(-smuneX2,-smjen2)

MISE À JOUR: Dans les commentaires @MartinL explique que pour la perte n'a pas de minimum mais a un maximum. Et ce maximum est donné par . C'est pourquoi la même construction géométrique avec le toucher cercle / ellipse continue de fonctionner: nous recherchons toujours des points à gradient nul. Lorsque , la perteλ<-smuneX2Lλβ^λ-smjen2<λ0Lλβ^λλ>0

-smuneX2<λ<-smjen2Lλβ^λ


λ(-,-smax2)λ

λ(-smjen2,0]λ>0

amibe dit réintégrer Monica
la source
1
λ<-smax2-smax2<λ<0
1
βT(XTX+λje)β.
λ<-smax2-smax2<λ<0
1
C'est très utile, merci beaucoup. J'ai mis à jour ma réponse.
amibe dit Réintégrer Monica
1
-smax2<λ<-smin2λ>-smin2XTX+λje