Pourquoi lambda «dans une erreur standard du minimum» est-il une valeur recommandée pour lambda dans une régression nette élastique?

24

Je comprends le rôle que joue lambda dans une régression élastique-nette. Et je peux comprendre pourquoi on sélectionnerait lambda.min, la valeur de lambda qui minimise l'erreur de validation croisée.

Ma question est: où dans la littérature statistique est-il recommandé d'utiliser lambda.1se, quelle est la valeur de lambda qui minimise l'erreur CV plus une erreur standard ? Je n'arrive pas à trouver une citation formelle, ou même une raison pour laquelle c'est souvent une bonne valeur. Je comprends que c'est une régularisation plus restrictive et réduira davantage les paramètres vers zéro, mais je ne suis pas toujours certain des conditions dans lesquelles lambda.1se est un meilleur choix que lambda.min. Quelqu'un peut-il aider à expliquer?

jhersh
la source
5
Une référence formelle peut être trouvée dans Hastie et al. "Les éléments de l'apprentissage statistique" page 61. Cependant, ils ne donnent pas beaucoup de justification à ce choix ...
Richard Hardy
Voir stats.stackexchange.com/questions/80268 .
amibe dit Réintégrer Monica le

Réponses:

22

Friedman, Hastie et Tibshirani (2010) , citant The Elements of Statistical Learning , écrivent,

Nous utilisons souvent la règle de "l'erreur standard" lors de la sélection du meilleur modèle; cela reconnaît le fait que les courbes de risque sont estimées avec erreur, donc se trompe du côté de la parcimonie.

La raison d'utiliser une erreur standard, par opposition à toute autre quantité, semble être parce que c'est, eh bien ... standard. Krstajic et al (2014) écrivent (gras en gras):

Breiman et al. [25] ont trouvé dans le cas de la sélection d'une taille d'arbre optimale pour les modèles d'arbre de classification que la taille d'arbre avec une erreur de validation croisée minimale génère un modèle qui s'adapte généralement. Par conséquent, dans la section 3.4.3 de leur livre, Breiman et al. [25] définissent une règle d'erreur standard (règle 1 SE) pour choisir une taille d'arbre optimale, et ils l'implémentent tout au long du livre. Afin de calculer l'erreur standard pour la validation croisée d'un pli en V unique, la précision doit être calculée pour chaque pli, et l'erreur standard est calculée à partir des précisions V de chaque pli. Hastie et al. [4] définissent la règle 1 SE comme sélectionnant le modèle le plus parcimonieux dont l'erreur n'est pas supérieure à une erreur standard au-dessus de l'erreur du meilleur modèle, et ils suggèrent à plusieurs endroits d'utiliser la règle 1 SE pour une utilisation générale de validation croisée.Le point principal de la règle 1 SE, avec laquelle nous sommes d'accord, est de choisir le modèle le plus simple dont la précision est comparable au meilleur modèle .

La suggestion est que le choix d'une erreur standard est entièrement heuristique, basé sur le sentiment qu'une erreur standard n'est généralement pas grande par rapport à la plage de valeurs .λ

shadowtalker
la source
1
Merci! Maintenant, je peux enfin citer quelque chose de approprié lorsque la question se pose pour ceux qui ne connaissent pas le choix "standard" de lambda. Le lien vers Krstajic et al semble également très bien.
jhersh
Cette citation dit seulement "1se s'est avéré être optimal pour la classification ". Mais la question posée sur la régression ! Il existe des alternatives. Si nous essayons par exemple de revenir à 2se, nous obtenons le problème que lambda est trop grand et réduit trop les coeffts. Mais nous pourrions par exemple reconstruire le modèle qui exclut toutes les variables non sélectionnées à lambda.1se dans le modèle d'origine.
smci
@smci quelle citation? Ce n'est dans aucune des citations que j'ai extraites, qui suggèrent toutes deux que la règle 1-SE est applicable en général, pas seulement dans la classification.
shadowtalker
6

Le livre de Breiman et al. (Cité dans la citation de l'autre réponse de Krstajic) est la plus ancienne référence que j'ai trouvée pour la règle 1SE.

Il s'agit des arbres de classification et de régression de Breiman, Friedman, Stone et Olshen (1984). Ils "dérivent" cette règle dans la section 3.4.3.

Donc, si vous avez besoin d'une citation formelle, cela semble être la source d'origine.

civilstat
la source