Pourquoi le «lasso détendu» est-il différent du lasso standard?

16

Si nous commençons avec un ensemble de données , y appliquons Lasso et obtenons une solution , nous pouvons appliquer à nouveau Lasso à l'ensemble de données , où S est l'ensemble des non index zéro de \ beta ^ L , pour obtenir une solution, \ beta ^ {RL} , appelée solution 'LASSO détendue' (corrigez-moi si je me trompe!). La solution \ beta ^ L doit satisfaire aux conditions de Karush – Kuhn – Tucker (KKT) pour (X, Y) mais, étant donné la forme des conditions KKT pour (X_S, Y) , ne les satisfait-elle pas également? Si oui, quel est l'intérêt de faire LASSO une deuxième fois?(X,Oui)βL(XS,Oui)SβLβRLβL(X,Oui)(XS,Oui)

Cette question fait suite à: Avantages de faire du "double lasso" ou de faire du lasso deux fois?

Coca
la source

Réponses:

10

D'après la définition 1 de Meinshausen (2007) , deux paramètres contrôlent la solution du Lasso détendu.

Le premier, , contrôle la sélection des variables, tandis que le second, , contrôle le niveau de retrait. Lorsque le Lasso et le Lasso détendu sont les mêmes (comme vous l'avez dit!), Mais pour \ phi <1, vous obtenez une solution avec des coefficients plus proches de ce qui donnerait une projection orthogonale sur les variables sélectionnées (type de soft de - biais).λϕϕ=1ϕ<1

Cette formulation correspond en fait à résoudre deux problèmes:

  1. D'abord le Lasso complet avec paramètre de pénalisation λ
  2. Deuxièmement, le Lasso sur , qui est réduit aux variables sélectionnées par 1, avec un paramètre de pénalisation .XSXλϕ
Tonio Bonnef
la source