Pourquoi la descente du gradient proximal au lieu des méthodes simples de premier cycle pour le Lasso?

Une solution approximative peut en effet être trouvée pour le lasso en utilisant des méthodes subgradientes. Par exemple, disons que nous voulons minimiser la fonction de perte suivante:

F (w; λ) = ‖ y - X w ‖_{2}^{2} + λ ‖ w ‖_{1}

$f(w; \lambda) = \| y - Xw \|_2^2 + \lambda \|w\|_1$

Le gradient du terme de pénalité est pour et pour , mais le terme de pénalité est non différenciable à . Au lieu de cela, nous pouvons utiliser le sous-gradient , qui est le même mais a une valeur de pour . $-\lambda$ $w_i < 0$ $\lambda$ $w_i > 0$ $0$ $\lambda \text{sgn}(w)$ $0$ $w_i = 0$

Le sous-gradient correspondant pour la fonction de perte est:

g (w; λ) = - 2 X^{T} (y - X w) + λ sgn (w)

$g(w; \lambda) = -2X^T (y - X w) + \lambda \text{sgn}(w)$

Nous pouvons minimiser la fonction de perte en utilisant une approche similaire à la descente du gradient, mais en utilisant le sous-gradient (qui est égal au gradient partout sauf , où le gradient n'est pas défini). La solution peut être très proche de la vraie solution de lasso, mais peut ne pas contenir de zéros exacts - où les poids auraient dû être nuls, ils font prendre des valeurs extrêmement petites à la place. Ce manque de véritable rareté est une raison de ne pas utiliser de méthodes de premier cycle pour le lasso. Les résolveurs dédiés tirent parti de la structure du problème pour produire des solutions vraiment parcimonieuses d'une manière efficace sur le plan des calculs. Ce post $0$ dit qu'en plus de produire des solutions clairsemées, les méthodes dédiées (y compris les méthodes de gradient proximal) ont des taux de convergence plus rapides que les méthodes de premier cycle. Il donne quelques références.

user20160
la source

Pourquoi la descente du gradient proximal au lieu des méthodes simples de premier cycle pour le Lasso?

Réponses: