23

Je regardais à travers la littérature sur la régularisation, et je vois souvent des paragraphes qui relient la régulation de L2 à Gaussian prior, et L1 à Laplace centrée sur zéro.

Je sais à quoi ressemblent ces priors, mais je ne comprends pas comment cela se traduit, par exemple, par des poids dans un modèle linéaire. En L1, si je comprends bien, nous nous attendons à des solutions clairsemées, c'est-à-dire que certains poids seront poussés à zéro exactement. Et dans L2, nous obtenons de petits poids mais pas des poids nuls.

Mais pourquoi cela arrive-t-il?

Veuillez commenter si j'ai besoin de fournir plus d'informations ou de clarifier ma façon de penser.

regression bayesian prior regularization laplace-distribution Dmitry Smirnov
la source

Connexes: Pourquoi la pénalité Lasso est-elle équivalente à la double exponentielle (Laplace) avant?

amibe dit Réintégrer Monica

1

Une explication intuitive très simple est que la pénalité diminue lors de l'utilisation d'une norme L2 mais pas lors de l'utilisation d'une norme L1. Donc, si vous pouvez garder la partie modèle de la fonction de perte à peu près égale et que vous pouvez le faire en diminuant l'une des deux variables, il est préférable de diminuer la variable avec une valeur absolue élevée dans le cas L2 mais pas dans le cas L1.

testuser

21

La relation de la distribution de Laplace a priori avec la médiane (ou norme L1) a été trouvée par Laplace lui-même, qui a constaté qu'en utilisant un tel a priori, vous estimez la médiane plutôt que la moyenne comme avec la distribution normale (voir Stingler, 1986 ou Wikipedia ). Cela signifie que la régression avec la distribution des erreurs de Laplace estime la médiane (comme par exemple la régression quantile), tandis que les erreurs normales se réfèrent à l'estimation OLS.

Les antérieurs robustes que vous avez interrogés ont également été décrits par Tibshirani (1996) qui a remarqué qu'une régression Lasso robuste en milieu bayésien équivaut à utiliser Laplace auparavant. De tels a priori pour les coefficients sont centrés autour de zéro (avec des variables centrées) et ont des queues larges - donc la plupart des coefficients de régression estimés à l'aide de celui-ci finissent par être exactement zéro. Cela est clair si vous regardez attentivement l'image ci-dessous, la distribution de Laplace a un pic autour de zéro (il y a une masse de distribution plus grande), tandis que la distribution normale est plus diffuse autour de zéro, donc les valeurs non nulles ont une masse de probabilité plus élevée. D 'autres possibilités pour des a priori robustes sont les distributions de Cauchy ou . $t$

En utilisant de tels prieurs, vous êtes plus enclin à vous retrouver avec de nombreux coefficients de valeur nulle, certains de taille moyenne et certains de grande taille (longue queue), tandis qu'avec Normal avant, vous obtenez des coefficients de taille plus modérée qui ne sont pas exactement à zéro, mais pas loin non plus de zéro.

(source image Tibshirani, 1996)

Stigler, SM (1986). L'histoire des statistiques: la mesure de l'incertitude avant 1900. Cambridge, MA: Belknap Press de Harvard University Press.

Tibshirani, R. (1996). Régression retrait et de la sélection via le lasso. Journal de la Royal Statistical Society. Série B (méthodologique), 267-288.

Gelman, A., Jakulin, A., Pittau, GM et Su, Y.-S. (2008). Une distribution a priori par défaut faiblement informative pour les modèles logistiques et autres modèles de régression. The Annals of Applied Statistics, 2 (4), 1360-1383.

Norton, RM (1984). La double distribution exponentielle: utiliser le calcul pour trouver un estimateur du maximum de vraisemblance. The American Statistician, 38 (2): 135-136.

Tim
la source

Wow, c'est une très bonne explication, et aussi des remerciements spéciaux pour la question liée où les normes de régularisation sont intuitivement liées au mode, au meadian et à la moyenne, cela clarifie vraiment beaucoup pour moi!

Dmitry Smirnov

1

@Tim, la distribution de Cauchy a une queue lourde, mais la probabilité de zéro est inférieure à la distribution normale. Alors, comment cela induit-il une solution clairsemée?

Royi

5

Vue fréquentiste 👀

Dans un sens, nous pouvons considérer les deux régularisations comme «réduire les poids» ; L2 minimise la norme euclidienne des poids, tandis que L1 minimise la norme Manhattan. En suivant cette ligne de pensée, nous pouvons penser que les équipotentielles de L1 et L2 sont respectivement sphériques et en forme de diamant, donc L1 est plus susceptible de conduire à des solutions clairsemées, comme illustré dans Bishop's Pattern Recognition and Machine Learning :

Vue bayésienne 👀

Cependant, afin de comprendre comment les a priori sont liés au modèle linéaire , nous devons comprendre l' interprétation bayésienne de la régression linéaire ordinaire . Le blog de Katherine Bailey est une excellente lecture pour cela. En résumé, nous supposons des erreurs iid normalement distribuées dans notre modèle linéaire

y = θ^{⊤} X + ϵ

$\mathbf{y} = \mathbf{\theta}^\top\mathbf{X} + \mathbf\epsilon$

$N$ $y_i, i = 1, 2, \ldots, N$ $\epsilon_k\sim \mathcal{N}(0,\sigma)$

$\mathbf{y}$

p (y | X, θ; ϵ) = N (θ^{⊤} X, σ)

$\begin{equation} p(\mathbf{y}|\mathbf{X}, \mathbf{\theta}; \mathbf{\epsilon}) = \mathcal{N}(\mathbf{\theta}^\top\mathbf{X}, \mathbf{\sigma}) \end{equation}$

Il s'avère que ... L'estimateur du maximum de vraisemblance est identique à la minimisation de l'erreur quadratique entre les valeurs de sortie prévues et réelles sous l'hypothèse de normalité de l'erreur.

\begin{aligned} {\hat{θ}}_{MLE} & = \arg max_{θ} bûche P (y | θ) \\ = \underset{θ}{\arg min} \sum_{je = 1}^{n} (y_{je} - θ^{⊤} X_{je})^{2} \end{aligned}

$\begin{align*} {\bf \hat{\theta}_{\text{MLE}}} &= \arg\max_{\bf \theta} \log P(y | \theta) \\ &=\underset{\theta}{\arg\min} \sum_{i=1}^n(y_i - \theta^\top{\mathbf{x}_i})^2 \end{align*}$

La régularisation comme une mise en avant des poids

Si nous devions placer un a priori non uniforme sur les poids de la régression linéaire, l'estimation de la probabilité maximale a posteriori (MAP) serait:

{\hat{θ}}_{CARTE} = \arg max_{θ} bûche P (y | θ) + bûche P (θ)

$\begin{equation*} {\bf \hat{\theta}_{\text{MAP}}} = \arg\max_{\bf \theta} \log P(y | \theta) + \log P(\theta) \end{equation*}$

$P(\theta)$ $\theta$

Maintenant, nous avons un autre point de vue sur la raison pour laquelle mettre un Laplace avant sur les poids est plus susceptible d'induire une rareté: parce que la distribution de Laplace est plus concentrée autour de zéro , nos poids sont plus susceptibles d'être nuls.

Christabella Irwanto
la source

Pourquoi Laplace produit-elle avant des solutions éparses?

Réponses:

Vue fréquentiste 👀

Vue bayésienne 👀

La régularisation comme une mise en avant des poids