Pourquoi la pénalité de Lasso est-elle équivalente à la double exponentielle (Laplace) antérieure?

27

J'ai lu dans un certain nombre de références que l'estimation de Lasso pour le vecteur de paramètre de régression est équivalente au mode postérieur de dans lequel la distribution antérieure pour chaque est une distribution exponentielle double (également connue sous le nom de distribution de Laplace).BBBi

J'ai essayé de le prouver, quelqu'un peut-il étoffer les détails?

Wintermute
la source
@ user777 J'ai feuilleté ce livre pendant un moment aujourd'hui. Impossible de trouver quoi que ce soit de pertinent.
Wintermute

Réponses:

30

Pour simplifier, considérons une seule observation d'une variable Y telle que

Y|μ,σ2N(μ,σ2),

μLaplace(λ) et l'a priori impropre f(σ)1σ>0 .

Alors la densité conjointe de Y,μ,σ2 est proportionnelle à

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

Prendre un log et éliminer les termes qui n'impliquent pas , log f ( Y , μ , σ 2 ) = - 1μ

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

Ainsi le maximum de (1) sera une estimation MAP et est bien le problème de Lasso après avoir reparamétrisé . λ~=λσ2

L'extension à la régression est claire - remplacer par X β dans la vraisemblance normale, et définir l'a priori sur β pour être une séquence de distributions indépendantes de laplace ( λ ) .μXββ(λ)

Andrew M
la source
25

Cela est évident en examinant la quantité que le LASSO optimise.

Prenez l'a priori pour que soit Laplace indépendant avec un zéro moyen et une certaine échelle τ .βiτ

Donc .p(β|τ)e12τi|βi|

Le modèle des données est l'hypothèse de régression habituelle .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Maintenant, moins deux fois le journal de la partie postérieure est de la forme

1k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Soit et on obtient - 2 log - postérieur deλ=σ2/τ2log

1k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

L'estimateur MAP pour minimise ce qui précède, ce qui minimiseβ

S=(yXβ)T(yXβ)+λi|βi|

L'estimateur MAP pour est donc LASSO.β

(Ici, j'ai traité comme étant effectivement fixé, mais vous pouvez faire d'autres choses avec lui et toujours faire sortir LASSO.)σ2

Edit: C'est ce que j'obtiens pour composer une réponse hors ligne; Je n'ai pas vu une bonne réponse a déjà été publiée par Andrew. Le mien ne fait vraiment rien de ce qu'il ne fait pas déjà. Je vais laisser le mien pour l'instant car il donne quelques détails supplémentaires sur le développement en termes de .β

Glen_b -Reinstate Monica
la source
1
Il semble y avoir une différence entre votre réponse et celle d'Andrew. Votre réponse a la forme correcte du régularisateur: , alors qu'Andrew a λ | μ | , où en régression linéaire, on obtient μ = X β . λβ1λ|μ|μ=Xβ
Alex R.
2
@AlexR Je pense que vous interprétez mal le μ dans la réponse d'Andrew. Le μ y correspond à un dans une régression avec seulement une interception, pas à X β dans une régression multiple; le même argument suit pour le cas plus large (notez les parallèles avec ma réponse) mais c'est plus facile à suivre dans le cas simple. La réponse d'Andrew est essentiellement correcte mais ne relie pas tous les points à la question d'origine, laissant une petite quantité à remplir par le lecteur. Je pense que nos réponses sont cohérentes (jusqu'à quelques différences mineures concernant σ qui peuvent être prises en compte) et qu'il méritait pleinement la tiqueβ0Xβ
Glen_b -Reinstate Monica