Sélection de pénalité optimale pour le lasso

15

Existe-t-il des résultats analytiques ou des articles expérimentaux concernant le choix optimal du coefficient du terme de pénalité 1 ? Par optimal , je veux dire un paramètre qui maximise la probabilité de sélectionner le meilleur modèle, ou qui minimise la perte attendue. Je pose la question car il est souvent impossible de choisir le paramètre par validation croisée ou bootstrap, soit en raison d'un grand nombre d'instances du problème, soit en raison de la taille du problème en question. Le seul résultat positif que je connaisse est Candes and Plan, sélection du modèle presque idéal par minimisation 1 .

gappy
la source
2
Connaissez-vous des articles établissant des résultats de cohérence pour le lasso? Knight & Fu (2000), Yu & Zhao (2006) et divers articles de Meinshausen.
cardinal
Oui, mais ma question ne concerne pas la cohérence asymptotique, qui fait l'objet des articles que vous avez mentionnés.
gappy
1
Ces articles portent (principalement) sur la cohérence de la sélection des modèles , ce qui, je dirais, est très lié à la question que vous avez posée. :)
cardinal

Réponses:

2

y-y^(λ)22λ=UNEσbruitJournalpnUNE>22

dohmatob
la source
Cela ne semble pas tout à fait convenir, car cela nécessite de connaître . En fait, c'est exactement ce problème qui motive le lasso à racine carrée ( arxiv.org/pdf/1009.5689.pdf )σnojese
user795305
5

Je suppose que vous êtes principalement intéressé par la régression, comme dans l'article cité, et non par les autres applications de la pénalité (lasso graphique, par exemple).1

Je crois alors que certaines réponses peuvent être trouvées dans l'étude Sur les «degrés de liberté» du lasso de Zou et al. En bref, il donne une formule analytique pour les degrés de liberté effectifs , qui, pour la perte d'erreur quadratique, vous permet de remplacer CV par une statistique analytique de type , disons.Cp

Un autre endroit à regarder est dans le sélecteur de Dantzig: estimation statistique lorsque p est beaucoup plus grand que n et les documents de discussion dans le même numéro d'Annals of Statistics. Ma compréhension est qu'ils résolvent un problème étroitement lié à la régression au lasso mais avec un choix fixe de coefficient de pénalité. Mais veuillez également consulter les documents de discussion.

Si vous n'êtes pas intéressé par la prédiction, mais par la sélection de modèles, je ne connais pas de résultats similaires. Les modèles optimaux de prévision entraînent souvent trop de variables sélectionnées dans les modèles de régression. Dans l'article Sélection de stabilité, Meinshausen et Bühlmann présentent une technique de sous-échantillonnage plus utile pour la sélection de modèles, mais elle peut être trop exigeante en termes de calcul pour vos besoins.

NRH
la source
(+1) Ces trois articles méritent une lecture attentive pour ceux qui s'intéressent à ce sujet. Le papier sélecteur Dantzig a de très belles mathématiques; cependant, je ne l'ai pas vu obtenir beaucoup de traction dans les applications, et je ne m'y attendais pas. Je pense, entre autres, que les chemins de régularisation très bruyants rendent les gens nerveux et donc, sans aucun avantage évident sur le lasso, en font une vente difficile.
cardinal
Hum, notez que bien que le nombre de coefficients non nuls pour une valeur donnée du paramètre de régularisation soit une estimation non biaisée pour les DoF à cette valeur, cette estimation est extrêmement variante.
dohmatob
1

Depuis que cette question a été posée, des progrès intéressants ont été accomplis. Par exemple, considérez ce document

Chichignoud, M., Lederer, J., et Wainwright, M. (2016). Un schéma pratique et un algorithme rapide pour régler le lasso avec des garanties d'optimalité. Journal of Machine Learning Research, 17, 1–17.

Ils proposent une méthode pour sélectionner le paramètre de réglage LASSO avec des garanties prouvées d'échantillons finis pour la sélection du modèle. Comme ils le disent dans l'article, "Pour les schémas d'étalonnage standard, parmi lesquels la validation croisée, aucune garantie comparable n'est disponible dans la littérature. En fait, nous ne connaissons aucune garantie d'échantillon fini pour les schémas d'étalonnage standard".

user795305
la source
0

Cela ne répond pas à votre question, mais: dans un paramètre de données volumineux, il peut être judicieux de régler le régularisateur à l'aide d'un seul train / fractionnement de test, au lieu de le faire environ 10 fois en validation croisée (ou plus pour le bootstrap). La taille et la représentativité de l'échantillon choisi pour le devset déterminent la précision de l'estimation du régularisateur optimal.

D'après mon expérience, la perte maintenue est relativement plate sur une plage de régularisation substantielle. Je suis sûr que ce fait peut ne pas s'appliquer à d'autres problèmes.

Brendan OConnor
la source