Différents logiciels d'implémentation sont disponibles pour le lasso . Je sais que beaucoup de choses ont été discutées entre l'approche bayésienne et l'approche fréquentiste dans différents forums. Ma question est très spécifique au lasso - Quelles sont les différences ou les avantages du lasso baysian par rapport au lasso ordinaire ?
Voici deux exemples d'implémentation dans le package:
# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)
require(monomvn)
## Lasso regression
reg.las <- regress(X, Y, method="lasso")
## Bayesian Lasso regression
reg.blas <- blasso(X, Y)
Alors, quand devrais-je opter pour l'une ou l'autre des méthodes? Ou ce sont les mêmes?
la source
"Moindres carrés" signifie que la solution globale minimise la somme des carrés des erreurs commises dans les résultats de chaque équation. L'application la plus importante est l'ajustement des données. Le meilleur ajustement au sens des moindres carrés minimise la somme des résidus au carré, un résidu étant la différence entre une valeur observée et la valeur ajustée fournie par un modèle. Les problèmes des moindres carrés se répartissent en deux catégories: les moindres carrés linéaires ou ordinaires et les non moindres carrés linéaires, selon que les résidus sont ou non linéaires dans toutes les inconnues.
La régression linéaire bayésienne est une approche de la régression linéaire dans laquelle l'analyse statistique est entreprise dans le contexte de l'inférence bayésienne. Lorsque le modèle de régression comporte des erreurs qui ont une distribution normale et si une forme particulière de distribution antérieure est supposée, des résultats explicites sont disponibles pour les distributions de probabilité postérieures des paramètres du modèle.
Une autre version régularisée des moindres carrés est le Lasso (opérateur de retrait et de sélection le moins absolu), qui utilise la contrainte que , la norme L1 du vecteur de paramètre, n'est pas supérieure à une valeur donnée . Dans un contexte bayésien, cela équivaut à placer une distribution a priori de Laplace à moyenne nulle sur le vecteur paramètre.∥ β∥1
L'une des principales différences entre le Lasso et la régression de crête est que dans la régression de crête, à mesure que la pénalité augmente, tous les paramètres sont réduits tout en restant non nuls, tandis que dans Lasso, l'augmentation de la pénalité entraînera de plus en plus de paramètres à être conduit à zéro.
Cet article compare le lasso régulier avec le lasso bayésien et la régression des crêtes (voir figure 1 ).
la source