Existe-t-il des résultats analytiques ou des articles expérimentaux concernant le choix optimal du coefficient du terme de pénalité ? Par optimal , je veux dire un paramètre qui maximise la probabilité de sélectionner le meilleur modèle, ou qui minimise la perte attendue. Je pose la question car il est souvent impossible de choisir le paramètre par validation croisée ou bootstrap, soit en raison d'un grand nombre d'instances du problème, soit en raison de la taille du problème en question. Le seul résultat positif que je connaisse est Candes and Plan, sélection du modèle presque idéal par minimisation .
15
Réponses:
la source
Je suppose que vous êtes principalement intéressé par la régression, comme dans l'article cité, et non par les autres applications de la pénalité (lasso graphique, par exemple).ℓ1
Je crois alors que certaines réponses peuvent être trouvées dans l'étude Sur les «degrés de liberté» du lasso de Zou et al. En bref, il donne une formule analytique pour les degrés de liberté effectifs , qui, pour la perte d'erreur quadratique, vous permet de remplacer CV par une statistique analytique de type , disons.Cp
Un autre endroit à regarder est dans le sélecteur de Dantzig: estimation statistique lorsque p est beaucoup plus grand que n et les documents de discussion dans le même numéro d'Annals of Statistics. Ma compréhension est qu'ils résolvent un problème étroitement lié à la régression au lasso mais avec un choix fixe de coefficient de pénalité. Mais veuillez également consulter les documents de discussion.
Si vous n'êtes pas intéressé par la prédiction, mais par la sélection de modèles, je ne connais pas de résultats similaires. Les modèles optimaux de prévision entraînent souvent trop de variables sélectionnées dans les modèles de régression. Dans l'article Sélection de stabilité, Meinshausen et Bühlmann présentent une technique de sous-échantillonnage plus utile pour la sélection de modèles, mais elle peut être trop exigeante en termes de calcul pour vos besoins.
la source
Depuis que cette question a été posée, des progrès intéressants ont été accomplis. Par exemple, considérez ce document
Ils proposent une méthode pour sélectionner le paramètre de réglage LASSO avec des garanties prouvées d'échantillons finis pour la sélection du modèle. Comme ils le disent dans l'article, "Pour les schémas d'étalonnage standard, parmi lesquels la validation croisée, aucune garantie comparable n'est disponible dans la littérature. En fait, nous ne connaissons aucune garantie d'échantillon fini pour les schémas d'étalonnage standard".
la source
Cela ne répond pas à votre question, mais: dans un paramètre de données volumineux, il peut être judicieux de régler le régularisateur à l'aide d'un seul train / fractionnement de test, au lieu de le faire environ 10 fois en validation croisée (ou plus pour le bootstrap). La taille et la représentativité de l'échantillon choisi pour le devset déterminent la précision de l'estimation du régularisateur optimal.
D'après mon expérience, la perte maintenue est relativement plate sur une plage de régularisation substantielle. Je suis sûr que ce fait peut ne pas s'appliquer à d'autres problèmes.
la source