Si le LASSO est équivalent à une régression linéaire avec un Laplace avant, comment peut-il y avoir une masse sur des ensembles avec des composants à zéro?

20

loss=yXβ22+λβ1

exp(λβ1)
λ

Considérons que du point de vue bayésien, nous pouvons calculer la probabilité postérieure que, disons, les estimations de paramètres non nuls se trouvent dans une collection d'intervalles donnée et les paramètres mis à zéro par le LASSO sont égaux à zéro. Ce qui m'a dérouté, étant donné que le prior de Laplace est continu (en fait absolument continu), alors comment peut-il y avoir une masse sur un ensemble qui est un produit d'intervalles et de singletons à ?{0}

Grant Izmirlian
la source
8
Qu'est-ce qui vous fait penser que le postérieur n'est pas aussi un pdf continu? Le fait que le maximum du postérieur se produise à un point qui se trouve avoir beaucoup de composants 0 ne signifie pas en soi que le postérieur n'est pas un pdf continu.
Brian Borchers
Le postérieur est un PDF continu. Considéré comme une estimation du maximum de vraisemblance contrainte, si nous imaginons des tirages répétés à partir de la même distribution de données lorsque le vrai modèle a des zéros à plusieurs coefficients de régression et que la constante de réglage est suffisamment grande, alors le CMLE aura toujours les mêmes composants mis à zéro et les non les paramètres zéro seront répartis dans les intervalles de confiance correspondants. Du point de vue bayésien, cela équivaut à avoir une probabilité positive pour de tels ensembles. Ma question est de savoir comment cela peut-il en être ainsi pour une distribution continue.
Grant Izmirlian
2
La solution CLME coïncide avec l'estimation MAP. Il n'y a vraiment plus rien à dire.
Sycorax dit Réintégrer Monica
3
La solution CMLE n'est pas un échantillon de la partie postérieure.
Brian Borchers
2
Il n'y a pas de contradiction car le postérieur ne met pas de masse sur des ensembles de dimension inférieure.
Xi'an

Réponses:

7

Comme tous les commentaires ci-dessus, l'interprétation bayésienne de LASSO ne prend pas la valeur attendue de la distribution postérieure, ce que vous voudriez faire si vous étiez puriste. Si tel était le cas, alors vous auriez raison de penser qu'il y a très peu de chances que le postérieur soit nul compte tenu des données.

En réalité, l'interprétation bayésienne de LASSO prend l'estimateur MAP (Maximum A Posteriori) du postérieur. Il semble que vous soyez familier, mais pour ceux qui ne le sont pas, il s'agit essentiellement du maximum de vraisemblance bayésien, où vous utilisez la valeur qui correspond à la probabilité maximale d'occurrence (ou le mode) comme estimateur pour les paramètres de LASSO. Étant donné que la distribution augmente de façon exponentielle jusqu'à zéro dans le sens négatif et diminue de façon exponentielle dans le sens positif, à moins que vos données ne suggèrent fortement que le bêta est une autre valeur significative, la valeur maximale de la valeur de votre postérieure est probablement 0.

Pour faire court, votre intuition semble être basée sur la moyenne du postérieur, mais l'interprétation bayésienne de LASSO est basée sur la prise du mode du postérieur.

www3
la source