Lasso bayésien vs lasso ordinaire

24

Différents logiciels d'implémentation sont disponibles pour le lasso . Je sais que beaucoup de choses ont été discutées entre l'approche bayésienne et l'approche fréquentiste dans différents forums. Ma question est très spécifique au lasso - Quelles sont les différences ou les avantages du lasso baysian par rapport au lasso ordinaire ?

Voici deux exemples d'implémentation dans le package:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Alors, quand devrais-je opter pour l'une ou l'autre des méthodes? Ou ce sont les mêmes?

rdorlearn
la source

Réponses:

30

Le lasso standard utilise une pénalité de régularisation L1 pour obtenir une régression clairsemée. Notez que cela est également connu sous le nom de poursuite de base .

Dans le cadre bayésien, le choix du régularisateur est analogue au choix de prior sur les poids. Si un a priori gaussien est utilisé, la solution Maximum a Posteriori (MAP) sera la même que si une pénalité L2 était utilisée. Bien qu'il ne soit pas directement équivalent, le prior de Laplace (qui est fortement culminé autour de zéro, contrairement au gaussien qui est lisse autour de zéro), produit le même effet de rétrécissement que la pénalité L1. Cet article décrit le lasso bayésien. .

En fait, lorsque vous placez un Laplace prioritaire sur les paramètres, la solution MAP doit être identique (et non simplement similaire) à la régularisation avec la pénalité L1 et la Laplace prior produira un effet de retrait identique à la pénalité L1. Cependant, en raison des approximations de la procédure d'inférence bayésienne ou d'autres problèmes numériques, les solutions peuvent ne pas être réellement identiques.

Dans la plupart des cas, les résultats produits par les deux méthodes seront très similaires. Selon la méthode d'optimisation et si des approximations sont utilisées, le lasso standard sera probablement plus efficace à calculer que la version bayésienne. Le bayésien produit automatiquement des estimations d'intervalle pour tous les paramètres, y compris la variance d'erreur, si ceux-ci sont nécessaires.

tdc
la source
"Si un a priori gaussien est utilisé, alors la solution du maximum de vraisemblance sera la même ....". La phrase en surbrillance doit se lire "Maximum A Posteriori (MAP)" car l'estimation de maximum de vraisemblance ignorera simplement la distribution antérieure sur les paramètres, conduisant à une solution non régularisée tandis que l'estimation MAP tient compte de la priorité.
mefathy
1
Lorsque vous placez un Laplace prioritaire sur les paramètres, la solution MAP sera identique (pas simplement similaire) à la régularisation avec la pénalité L1 et la Laplace prior produira un effet de retrait identique à la pénalité L1.
mefathy
@mefathy oui vous avez raison sur les deux points (je ne peux pas croire que j'ai écrit ML au lieu de MAP ....), bien que bien sûr dans la pratique YMMV. J'ai mis à jour la réponse pour incorporer les deux commentaires.
tdc du
6

"Moindres carrés" signifie que la solution globale minimise la somme des carrés des erreurs commises dans les résultats de chaque équation. L'application la plus importante est l'ajustement des données. Le meilleur ajustement au sens des moindres carrés minimise la somme des résidus au carré, un résidu étant la différence entre une valeur observée et la valeur ajustée fournie par un modèle. Les problèmes des moindres carrés se répartissent en deux catégories: les moindres carrés linéaires ou ordinaires et les non moindres carrés linéaires, selon que les résidus sont ou non linéaires dans toutes les inconnues.

La régression linéaire bayésienne est une approche de la régression linéaire dans laquelle l'analyse statistique est entreprise dans le contexte de l'inférence bayésienne. Lorsque le modèle de régression comporte des erreurs qui ont une distribution normale et si une forme particulière de distribution antérieure est supposée, des résultats explicites sont disponibles pour les distributions de probabilité postérieures des paramètres du modèle.

β2

Une autre version régularisée des moindres carrés est le Lasso (opérateur de retrait et de sélection le moins absolu), qui utilise la contrainte que , la norme L1 du vecteur de paramètre, n'est pas supérieure à une valeur donnée . Dans un contexte bayésien, cela équivaut à placer une distribution a priori de Laplace à moyenne nulle sur le vecteur paramètre.β1

L'une des principales différences entre le Lasso et la régression de crête est que dans la régression de crête, à mesure que la pénalité augmente, tous les paramètres sont réduits tout en restant non nuls, tandis que dans Lasso, l'augmentation de la pénalité entraînera de plus en plus de paramètres à être conduit à zéro.

Cet article compare le lasso régulier avec le lasso bayésien et la régression des crêtes (voir figure 1 ).

John
la source