KKT versus formulation non contrainte de régression au lasso

20

La régression pénalisée L1 (alias lasso) est présentée en deux formulations. Soit les deux fonctions objectives

Q1=12||YXβ||22Q2=12||YXβ||22+λ||β||1.
Alors les deux formulations différentes sont
argminβQ1
sous réserve de
||β||1t,
et, de façon équivalente
argminβQ2.
En utilisant les conditions de Karush-Kuhn-Tucker (KKT), il est facile de voir comment la condition de stationnarité pour la première formulation équivaut à prendre le gradient de la deuxième formulation et à le mettre égal à 0. Ce que je ne peux pas trouver, ni comprendre , est la manière dont la condition de mou complémentaire pour la première formulation,λ(||β||1t)=0 , est garantie d'être remplie par la solution de la deuxième formulation.
goodepic
la source

Réponses:

16

Les deux formulations sont équivalentes en ce sens que pour chaque valeur de dans la première formulation, il existe une valeur de λ pour la deuxième formulation telle que les deux formulations ont le même minimiseur β .tλβ

Voici la justification:

Considérons la formulation du lasso: Soit le minimiseurβetb=| | β| | 1. Mon affirmation est que si vous définissezt=bdans la première formulation, alors la solution de la première formulation sera égalementβ. Voici la preuve:

f(β)=12||YXβ||22+λ||β||1
βb=||β||1t=bβ

Considérez la première formulation Si possibleque cette seconde formulation ont une solution β telle que| | ß | | 1<| | β| | 1=b(notez le signe strictement inférieur à). Ensuiteil est facile de voir quef( β )<f(β

min12||YXβ||22 s.t.||β||1b
β^||β^||1<||β||1=b contredisant le fait que βf(β^)<f(β)β est une solution pour le lasso. Ainsi, la solution de la première formulation est également .β

Puisque , la condition de mou complémentaire est satisfaite au point de solution β .t=bβ

Donc, étant donné une formulation de lasso avec , vous construisez une formulation contrainte en utilisant un t égal à la valeur de la norme l 1 de la solution de lasso. Inversement, étant donné une formulation contrainte avec t , vous trouvez un λ tel que la solution du lasso sera égale à la solution de la formulation contrainte.λtl1tλ

(Si vous connaissez les sous-gradients, vous pouvez trouver ce en résolvant l'équation X T ( y - X β ) = λ z , où z | | β | | 1 )λXT(yXβ)=λzz||β||1)

elexhobby
la source
1
Excellent. Une fois que vous voyez la solution, vous vous sentez toujours stupide de ne pas y arriver vous-même. Je suppose que vous voulez dire, à trouver la contradiction, supposons que nous trouvons un β tel que | | ß | | 1 < | | β | | 1 = b ? β^||β^||1<||β||1=b
goodepic
Considérez la réponse de flaggin comme correcte
bdeonovic
2
Pouvez - vous expliquer pourquoi f(β^)<f(β)
goofd
Cela prouve que la solution de la première formulation doit également avoir une norme l1 de b. Comment prouve-t-on que les deux solutions sont bien les mêmes?
broncoAbierto
1
En outre, le Lasso n'a pas toujours une solution unique, donc nous ne pouvons pas se référer à la Minimizer. arxiv.org/pdf/1206.0313.pdf . On pourrait cependant se référer à l'ensemble des minimiseurs et montrer que certains ßß * doit appartenir à cet ensemble. β^β
broncoAbierto
3

Je pense que l'idée d'elexhobby pour cette preuve est bonne, mais je ne pense pas qu'elle soit complètement correcte.

Pour démontrer que l'existence d'une solution pour la première , de telle sorte que β< β * conduit à une contradiction, on ne peut supposer la nécessité de β= β * , non que β = β * .β^β^<ββ^=ββ^=β

Je suggère plutôt de procéder comme suit:

P1P2P2ββ=bP1β^ββ^βf(β^)f(β)f(β^)<f(β)βP2f(β^)=f(β) then β^=β, since we assumed the solution to be unique.

However, it may be the case that the Lasso has multiple solutions. By lemma 1 of arxiv.org/pdf/1206.0313.pdf we know that all of these solutions have the same 1-norm (and the same minimum value, of course). We set that norm as the constraint for the P1 and proceed.

Let's denote by S the set of solutions to P2, with β=b βS. Let P1 have a solution, β^S. Then, we have that β^ββS and therefore f(β^)f(β)βS. If f(β^)=f(β) for some βS (and hence for all of them) then β^S, which contradicts our assumptions. If f(β^)<f(β) for some βS then S is not the set of solutions to P2. Therefore, every solution to P1 is in S, i.e. any solution to P1 is also a solution to P2. It would remain to prove that the complementary holds too.

broncoAbierto
la source