Je pense que vous devriez utiliser une plage de 0 à
λ′max=11−αλmax
Mon raisonnement vient de l'extension du cas du lasso, et une dérivation complète est ci-dessous. Le qualificatif est qu'il ne capture pas la contrainte apportée par la régularisation . Si je travaille sur la façon de résoudre ce problème (et de décider s'il doit réellement être corrigé), je reviendrai et le modifierai.dofℓ2
Définissez l'objectif
f(b)=12∥y−Xb∥2+12γ∥b∥2+δ∥b∥1
C'est l'objectif que vous avez décrit, mais avec certains paramètres substitués pour améliorer la clarté.
Classiquement, ne peut être une solution au problème d'optimisation si le gradient à est nul. Le terme n'est cependant pas lisse, donc la condition est en fait que se trouve dans le sous-gradient à .b=0minf(b)b=0∥b∥10b=0
Le sous-gradient de estf
∂f=−XT(y−Xb)+γb+δ∂∥b∥1
où désigne le sous-gradué par rapport à . À , cela devient∂bb=0
∂f|b=0=−XTy+δ[−1,1]d
où est la dimension de et a est un cube dimensionnel. Donc, pour que le problème d'optimisation ait une solution de , il faut quedb[−1,1]ddb=0
(XTy)i∈δ[−1,1]
pour chaque composant . Cela équivaut ài
δ>maxi∣∣∣∣∑jyjXij∣∣∣∣
qui est la définition que vous avez donnée pour . Si est maintenant échangé, la formule en haut du message tombe.λmaxδ=(1−α)λ