Supposons que je veuille estimer un grand nombre de paramètres et que je veuille pénaliser certains d'entre eux car je pense qu'ils devraient avoir peu d'effet par rapport aux autres. Comment décider quel schéma de pénalisation utiliser? Quand la régression de crête est-elle plus appropriée? Quand devrais-je utiliser le lasso?
regression
lasso
ridge-regression
Larry Wang
la source
la source
Réponses:
Gardez à l'esprit que la régression de crête ne peut pas mettre à zéro les coefficients; ainsi, vous finissez par inclure tous les coefficients du modèle ou aucun d'entre eux. En revanche, LASSO effectue à la fois le retrait de paramètre et la sélection de variable automatiquement. Si certaines de vos covariables sont fortement corrélées, vous voudrez peut-être utiliser Elastic Net [3] au lieu de LASSO.
Personnellement, je recommanderais d’utiliser la Garotte Non Négative (NNG) [1] car elle est cohérente en termes d’estimation et de sélection de variables [2]. Contrairement à LASSO et à la régression de crête, NNG nécessite une estimation initiale qui est ensuite réduite à l'origine. Dans le document d'origine, Breiman recommande la solution des moindres carrés pour l'estimation initiale (vous pouvez toutefois vouloir lancer la recherche à partir d'une solution de régression par arête et utiliser un paramètre tel que GCV pour sélectionner le paramètre de pénalité).
En termes de logiciels disponibles, j'ai implémenté le NNG d'origine dans MATLAB (basé sur le code FORTRAN d'origine de Breiman). Vous pouvez le télécharger à partir de:
http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip
BTW, si vous préférez une solution bayésienne, consultez [4,5].
Références:
[1] Breiman, L. Meilleure régression de sous-ensembles utilisant le non-négatif Garrote Technometrics, 1995, 37, 373-384.
[2] Yuan, M. et Lin, Y. Sur l'estimateur non négatif à la garrotte, Journal de la Société royale de statistique (série B), 2007, 69, 143-161.
[3] Zou, H. & Hastie, T. Régularisation et sélection de variables via le réseau élastique de la Société royale de statistique (série B), 2005, 67, 301-320.
[4] Park, T. et Casella, G. Journal bayésien de lasso de l'association américaine de statistique, 2008, 103, 681-686.
[5] Kyung, M .; Gill, J .; Ghosh, M. et Casella, G. Régression pénalisée, erreurs types et analyse bayésienne bayésienne de Lassos, 2010, 5, 369-412
la source
Ridge ou lasso sont des formes de régressions linéaires régularisées. La régularisation peut également être interprétée comme préalable dans une méthode d’estimation maximum a posteriori. Selon cette interprétation, l'arête et le lasso font des hypothèses différentes sur la classe de transformation linéaire qu'ils infèrent pour relier les données d'entrée et de sortie. Dans la crête, les coefficients de la transformation linéaire sont distribués normalement et dans le lasso, ils sont distribués. Dans le lasso, il est plus facile pour les coefficients d’être nuls et donc plus facile d’éliminer une partie de votre variable d’entrée car elle ne contribue pas à la sortie.
Il y a aussi quelques considérations pratiques. La crête est un peu plus facile à mettre en œuvre et plus rapide à calculer, ce qui peut être important selon le type de données dont vous disposez.
Si vous avez tous les deux implémentés, utilisez des sous-ensembles de vos données pour trouver la crête et le lasso et comparez leur efficacité sur les données laissées. Les erreurs devraient vous donner une idée de laquelle utiliser.
la source
En règle générale, lorsque vous avez de nombreux effets de petite / moyenne taille, vous devriez utiliser Ridge. Si vous n'avez que quelques variables avec un effet moyen / fort, utilisez le lasso. Hastie, Tibshirani, Friedman
la source