Pour le problème de lasso tels que \ | \ beta \ | _1 \ leq t . Je vois souvent le résultat de seuillage souple \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ gamma) ^ + pour le cas X orthonormé . On prétend que la solution peut être "facilement démontrée", mais je n'ai jamais vu de solution efficace. Quelqu'un en a-t-il déjà vu une ou a-t-il déjà fait la dérivation?
52
Réponses:
Cela peut être attaqué de différentes manières, y compris par des approches relativement économiques via les conditions de Karush – Kuhn – Tucker .
Ci-dessous, un argument alternatif assez élémentaire.
La solution des moindres carrés pour un dessin orthogonal
Supposons que soit composé de colonnes orthogonales. La solution des moindres carrés est alorsX
Quelques problèmes équivalents
Via la forme lagrangienne, il est évident qu'un problème équivalent à celui considéré dans la question est
En élargissant le premier terme, on obtient et depuis ne contient pas des variables d’intérêt, nous pouvons l’écarter et envisager un autre problème équivalent,12yTy−yTXβ+12βTβ yTy
En notant que , le problème précédent peut être réécrit sous la formeβ^LS=XTy
Notre fonction d'objectif est maintenant une somme d'objectifs, chacun correspondant à une variable distincte , afin qu'ils puissent être résolus individuellement.βi
Le tout est égal à la somme de ses parties
Fixer un certain . Ensuite, nous voulons minimiseri
Si , alors nous devons avoir sinon nous pourrions retourner son signe et obtenir une valeur inférieure pour la fonction objectif. De même si , alors nous devons choisir .β^LSi>0 βi≥0 β^LSi<0 βi≤0
Cas 1 : . Depuis , différenciant par rapport à et en le fixant à zéro , nous obtenons et ceci n’est réalisable que si le droite n’est pas négatif, donc dans ce cas la solution actuelle estβ^LSi>0 βi≥0
Cas 2 : . Cela implique que nous devons avoir et donc En différenciant par rapport à et en fixant la valeur à zéro, nous obtenons . Mais, encore une fois, pour que cela soit réalisable, nous avons besoin de , qui est obtenu en prenantβ^LSi≤0 βi≤0
Dans les deux cas, nous obtenons le formulaire souhaité et nous avons donc terminé.
Remarques finales
Notez que lorsque augmente, alors chacun desdécroît nécessairement, donc aussi . Lorsque , nous récupérons les solutions OLS et, pour, on obtient pour tout .γ |β^lassoi| ∥β^lasso∥1 γ=0 γ>maxi|β^LSi| β^lassoi=0 i
la source
On suppose que la covariables , les colonnes de , sont également normalisées de sorte que . C’est pour plus de commodité par la suite: sans cela, la notation n’est que plus lourde puisque n’est que diagonale. Supposons en outre que . Ceci est une hypothèse nécessaire pour que le résultat soit valide. Définissez l’estimateur des moindres carrés . Ensuite, la forme (lagrangienne) de l’estimateur de lassoxj X∈Rn×p XTX=I XTX n≥p β^OLS=argminβ∥y−Xβ∥22
C’est une dérivation qui ignore la dérivation détaillée de l’opérateur proximal élaborée par Cardinal, mais, j’espère, clarifie les principales étapes permettant de créer une forme fermée.
la source