Considérons que du point de vue bayésien, nous pouvons calculer la probabilité postérieure que, disons, les estimations de paramètres non nuls se trouvent dans une collection d'intervalles donnée et les paramètres mis à zéro par le LASSO sont égaux à zéro. Ce qui m'a dérouté, étant donné que le prior de Laplace est continu (en fait absolument continu), alors comment peut-il y avoir une masse sur un ensemble qui est un produit d'intervalles et de singletons à ?
lasso
laplace-distribution
Grant Izmirlian
la source
la source
Réponses:
Comme tous les commentaires ci-dessus, l'interprétation bayésienne de LASSO ne prend pas la valeur attendue de la distribution postérieure, ce que vous voudriez faire si vous étiez puriste. Si tel était le cas, alors vous auriez raison de penser qu'il y a très peu de chances que le postérieur soit nul compte tenu des données.
En réalité, l'interprétation bayésienne de LASSO prend l'estimateur MAP (Maximum A Posteriori) du postérieur. Il semble que vous soyez familier, mais pour ceux qui ne le sont pas, il s'agit essentiellement du maximum de vraisemblance bayésien, où vous utilisez la valeur qui correspond à la probabilité maximale d'occurrence (ou le mode) comme estimateur pour les paramètres de LASSO. Étant donné que la distribution augmente de façon exponentielle jusqu'à zéro dans le sens négatif et diminue de façon exponentielle dans le sens positif, à moins que vos données ne suggèrent fortement que le bêta est une autre valeur significative, la valeur maximale de la valeur de votre postérieure est probablement 0.
Pour faire court, votre intuition semble être basée sur la moyenne du postérieur, mais l'interprétation bayésienne de LASSO est basée sur la prise du mode du postérieur.
la source