Pourquoi la descente du gradient proximal au lieu des méthodes simples de premier cycle pour le Lasso?

9

Je pensais résoudre le Lasso via des méthodes de premier cycle à la vanille. Mais j'ai lu des gens suggérant d'utiliser la descente du gradient proximal. Quelqu'un peut-il souligner pourquoi la méthode proximale GD au lieu de la vanille est utilisée pour le Lasso?

CKM
la source

Réponses:

14

Une solution approximative peut en effet être trouvée pour le lasso en utilisant des méthodes subgradientes. Par exemple, disons que nous voulons minimiser la fonction de perte suivante:

F(w;λ)=y-Xw22+λw1

Le gradient du terme de pénalité est pour et pour , mais le terme de pénalité est non différenciable à . Au lieu de cela, nous pouvons utiliser le sous-gradient , qui est le même mais a une valeur de pour .-λwje<0λwje>00λsgn(w)0wje=0

Le sous-gradient correspondant pour la fonction de perte est:

g(w;λ)=-2XT(y-Xw)+λsgn(w)

Nous pouvons minimiser la fonction de perte en utilisant une approche similaire à la descente du gradient, mais en utilisant le sous-gradient (qui est égal au gradient partout sauf , où le gradient n'est pas défini). La solution peut être très proche de la vraie solution de lasso, mais peut ne pas contenir de zéros exacts - où les poids auraient dû être nuls, ils font prendre des valeurs extrêmement petites à la place. Ce manque de véritable rareté est une raison de ne pas utiliser de méthodes de premier cycle pour le lasso. Les résolveurs dédiés tirent parti de la structure du problème pour produire des solutions vraiment parcimonieuses d'une manière efficace sur le plan des calculs. Ce post0dit qu'en plus de produire des solutions clairsemées, les méthodes dédiées (y compris les méthodes de gradient proximal) ont des taux de convergence plus rapides que les méthodes de premier cycle. Il donne quelques références.

user20160
la source