Je comprends le rôle que joue lambda dans une régression élastique-nette. Et je peux comprendre pourquoi on sélectionnerait lambda.min, la valeur de lambda qui minimise l'erreur de validation croisée.
Ma question est: où dans la littérature statistique est-il recommandé d'utiliser lambda.1se, quelle est la valeur de lambda qui minimise l'erreur CV plus une erreur standard ? Je n'arrive pas à trouver une citation formelle, ou même une raison pour laquelle c'est souvent une bonne valeur. Je comprends que c'est une régularisation plus restrictive et réduira davantage les paramètres vers zéro, mais je ne suis pas toujours certain des conditions dans lesquelles lambda.1se est un meilleur choix que lambda.min. Quelqu'un peut-il aider à expliquer?
Réponses:
Friedman, Hastie et Tibshirani (2010) , citant The Elements of Statistical Learning , écrivent,
La raison d'utiliser une erreur standard, par opposition à toute autre quantité, semble être parce que c'est, eh bien ... standard. Krstajic et al (2014) écrivent (gras en gras):
La suggestion est que le choix d'une erreur standard est entièrement heuristique, basé sur le sentiment qu'une erreur standard n'est généralement pas grande par rapport à la plage de valeurs .λ
la source
Le livre de Breiman et al. (Cité dans la citation de l'autre réponse de Krstajic) est la plus ancienne référence que j'ai trouvée pour la règle 1SE.
Il s'agit des arbres de classification et de régression de Breiman, Friedman, Stone et Olshen (1984). Ils "dérivent" cette règle dans la section 3.4.3.
Donc, si vous avez besoin d'une citation formelle, cela semble être la source d'origine.
la source