J'essaie d'utiliser un modèle LASSO pour la prévision et je dois estimer les erreurs-types. Sûrement quelqu'un a déjà écrit un paquet pour faire ceci. Mais pour autant que je sache, aucun des paquets sur CRAN qui font des prédictions à l'aide d'un LASSO ne renverra d'erreurs standard pour ces prédictions.
Ma question est donc la suivante: existe-t-il un package ou un code R disponible pour calculer les erreurs standard des prédictions LASSO?
r
standard-error
prediction
lasso
Rob Hyndman
la source
la source
monomvn
, voir ma réponse ci-dessous.Réponses:
Kyung et al. (2010), «Régression pénalisée, erreurs-types et lassos bayésiens», Bayesian Analysis, 5 , 2 , suggèrent qu'il pourrait ne pas y avoir de consensus sur une méthode statistiquement valide de calcul des erreurs-types pour les prédictions en lasso. Tibshirani semble être d’accord (diapositive 43) sur le fait que les erreurs types restent un problème non résolu.
la source
Sur une note connexe, qui pourrait être utile, Tibshirani et ses collègues ont proposé un test de signification pour le lasso. Le document est disponible et intitulé "Un test de signification pour le lasso". Une version gratuite du document peut être trouvée ici
la source
Sandipan Karmakar vous dit quoi faire, cela devrait vous aider sur le "comment":
[...]
la source
Bayésien LASSO est la seule alternative au problème du calcul des erreurs types. Les erreurs types sont automatiquement calculées dans LASSO bayésien ... Vous pouvez implémenter le LASSO bayésien très facilement à l'aide du schéma d'échantillonnage de Gibbs ...
LASSO bayésien nécessite que des distributions préalables soient affectées aux paramètres du modèle. Dans le modèle LASSO, nous avons la fonction objectif avec comme paramètre de régularisation. Comme nous avons -norm pour , un type spécial de distribution préalable est nécessaire pour cela, la distribution LAPLACE est un mélange à l’échelle de la distribution normale avec une distribution exponentielle comme densité de mélange. Sur la base des postérieurs conditionnels complets de chacun des paramètres, il faut en déduire.||y−Xβ||22+λ||β||1 λ ℓ1 β
Ensuite, on peut utiliser Gibbs Sampling pour simuler la chaîne. Voir Park & Cassella (2008), "The Lasso Bayesian", JASA , 103 , 482 .
Lasso fréquentiste présente trois inconvénients inhérents:
Il faut choisir par validation croisée ou d’autres moyens.λ
Les erreurs standard sont difficiles à calculer car le LARS et d’autres algorithmes produisent des estimations ponctuelles de .β
La structure hiérarchique du problème en question ne peut pas être codée à l'aide du modèle fréquentiste, ce qui est assez facile dans le cadre bayésien.
la source
Pour ajouter aux réponses ci-dessus, le problème semble être que même un bootstrap est probablement insuffisant car l'estimation du modèle pénalisé est biaisée et que le bootstrap ne parlera que de la variance, ignorant le biais de l'estimation. Ceci est bien résumé dans la vignette du paquet pénalisé à la page 18 .
Si utilisé pour la prédiction cependant, pourquoi une erreur standard du modèle est-elle requise? Ne pouvez-vous pas effectuer une validation croisée ou un amorçage approprié et générer une erreur standard autour d’une mesure liée à la prédiction telle que MSE?
la source
Il existe le paquet sélectifInference dans R, https://cran.r-project.org/web/packages/selectiveInference/index.html , qui fournit des intervalles de confiance et des valeurs p pour vos coefficients ajustés par le LASSO, sur la base du document suivant :
Stephen Reid, Jerome Friedman et Rob Tibshirani (2014). Une étude de l'estimation de la variance d'erreur dans la régression au lasso. arXiv: 1311.5274
PS: sachez que cela produit des estimations d’erreur pour vos paramètres, mais pas pour l’erreur sur votre prédiction finale, si c’est ce que vous cherchez ... Je suppose que vous pourriez utiliser "intervalles de prédiction de population" pour cela si vous le souhaitez (par rééchantillonnage des paramètres en fonction de l'ajustement suivant une distribution normale multivariée).
la source