Pourquoi la pénalité de Lasso est-elle équivalente à la double exponentielle (Laplace) antérieure?

27

J'ai lu dans un certain nombre de références que l'estimation de Lasso pour le vecteur de paramètre de régression est équivalente au mode postérieur de dans lequel la distribution antérieure pour chaque est une distribution exponentielle double (également connue sous le nom de distribution de Laplace). $B$ $B$ $B_i$

J'ai essayé de le prouver, quelqu'un peut-il étoffer les détails?

regression bayesian lasso prior regularization Wintermute
la source

@ user777 J'ai feuilleté ce livre pendant un moment aujourd'hui. Impossible de trouver quoi que ce soit de pertinent.

Wintermute

3

Connexes: stats.stackexchange.com/questions/177210/…

Tim

30

Pour simplifier, considérons une seule observation d'une variable $Y$ telle que

Y | μ, σ^{2} \sim N (μ, σ^{2}),

$Y|\mu, \sigma^2 \sim N(\mu, \sigma^2),$

$\mu \sim \mbox{Laplace}(\lambda)$ et l'a priori impropre $f(\sigma) \propto \mathbb{1}_{\sigma>0}$ .

Alors la densité conjointe de $Y, \mu, \sigma^2$ est proportionnelle à

f (Y, μ, σ^{2} | λ) \propto \frac{1}{σ} \exp (- \frac{(y - μ)^{2}}{σ^{2}}) \times 2 λ e^{- λ | μ |} .

$f(Y, \mu, \sigma^2 | \lambda) \propto \frac{1}{\sigma}\exp \left(-\frac{(y-\mu)^2}{\sigma^2} \right) \times 2\lambda e^{-\lambda \vert \mu \vert}.$

Prendre un log et éliminer les termes qui n'impliquent pas , $\mu$

\log f (Y, μ, σ^{2}) = - \frac{1}{σ^{2}} ‖ y - μ ‖_{2}^{2} - λ | μ | . (1)

$\log f(Y, \mu, \sigma^2) = -\frac{1}{\sigma^2} \Vert y-\mu\Vert_2^2 -\lambda \vert \mu \vert. \quad (1)$

Ainsi le maximum de (1) sera une estimation MAP et est bien le problème de Lasso après avoir reparamétrisé . $\tilde \lambda = \lambda \sigma^2$

L'extension à la régression est claire - remplacer par dans la vraisemblance normale, et définir l'a priori sur pour être une séquence de distributions indépendantes de laplace . $\mu$ $X\beta$ $\beta$ $(\lambda)$

Andrew M
la source

25

Cela est évident en examinant la quantité que le LASSO optimise.

Prenez l'a priori pour que soit Laplace indépendant avec un zéro moyen et une certaine échelle . $\beta_i$ $\tau$

Donc . $p(\beta|\tau) \propto e^{-\frac{1}{2\tau} \sum_i|\beta_i|}$

Le modèle des données est l'hypothèse de régression habituelle . $y \stackrel{\text{iid}}{\sim}N(X\beta,\sigma^2)$

$f(\mathbf{y}|\mathbf{X},\boldsymbol\beta,\sigma^{2}) \propto (\sigma^{2})^{-n/2} \exp\left(-\frac{1}{2{\sigma}^{2}}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right)$

Maintenant, moins deux fois le journal de la partie postérieure est de la forme

$k(\sigma^2,\tau,n,p)+$ $\frac{1}{{\sigma}^{2}} (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)+ \frac{1}{\tau} \sum_i|\beta_i|$

Soit et on obtient postérieur de $\lambda=\sigma^2/\tau$ $-2\log$

$k(\sigma^2,\lambda,n,p)+$ $\frac{1}{{\sigma}^{2}}\left[ (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)+ \lambda \sum_i|\beta_i|\right]$

L'estimateur MAP pour minimise ce qui précède, ce qui minimise $\beta$

$S=(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)+ \lambda \sum_i|\beta_i|$

L'estimateur MAP pour est donc LASSO. $\beta$

(Ici, j'ai traité comme étant effectivement fixé, mais vous pouvez faire d'autres choses avec lui et toujours faire sortir LASSO.) $\sigma^2$

Edit: C'est ce que j'obtiens pour composer une réponse hors ligne; Je n'ai pas vu une bonne réponse a déjà été publiée par Andrew. Le mien ne fait vraiment rien de ce qu'il ne fait pas déjà. Je vais laisser le mien pour l'instant car il donne quelques détails supplémentaires sur le développement en termes de . $\beta$

Glen_b -Reinstate Monica
la source

1

Il semble y avoir une différence entre votre réponse et celle d'Andrew. Votre réponse a la forme correcte du régularisateur:

, alors qu'Andrew a

, où en régression linéaire, on obtient

.

λ ‖ β ‖_{1}

$\lambda \|\beta\|_1$

λ | μ |

$\lambda |\mu|$

μ = X β

$\mu=X\beta$

Alex R.

2

@AlexR Je pense que vous interprétez mal le μ dans la réponse d'Andrew. Le μ y correspond à un

dans une régression avec seulement une interception, pas à

dans une régression multiple; le même argument suit pour le cas plus large (notez les parallèles avec ma réponse) mais c'est plus facile à suivre dans le cas simple. La réponse d'Andrew est essentiellement correcte mais ne relie pas tous les points à la question d'origine, laissant une petite quantité à remplir par le lecteur. Je pense que nos réponses sont cohérentes (jusqu'à quelques différences mineures concernant σ qui peuvent être prises en compte) et qu'il méritait pleinement la tique

β_{0}

$\beta_0$

X β

$X\beta$

Glen_b -Reinstate Monica

Pourquoi la pénalité de Lasso est-elle équivalente à la double exponentielle (Laplace) antérieure?

Réponses: