La régularisation par filet élastique est-elle toujours préférée à Lasso & Ridge, car elle semble résoudre les inconvénients de ces méthodes? Quelle est l'intuition et quel est le calcul derrière le filet élastique?
regression
lasso
regularization
ridge-regression
elastic-net
GeorgeOfTheRF
la source
la source
Réponses:
1. Quelle méthode est préférée?
Oui, le filet élastique est toujours préférable à la régression lasso et crête, car il résout les limitations des deux méthodes, tout en incluant chacune d’elles comme cas spéciaux. Ainsi, si la solution faîtière ou lasso est effectivement la meilleure, toute bonne routine de sélection de modèle l’identifiera dans le cadre du processus de modélisation.
Les commentaires à mon post ont souligné que les avantages de filet élastique ne sont pas incompétents. Je persiste à croire que la généralité de la régression nette élastique reste préférable à la régularisationL1 ou L2 seule. Plus précisément, je pense que les points de discorde entre moi et les autres sont directement liés aux hypothèses que nous sommes disposés à formuler sur le processus de modélisation. En présence de connaissances solides sur les données sous-jacentes, certaines méthodes seront préférées aux autres. Cependant, ma préférence pour le filet élastique découle de mon scepticisme quant au fait que nous saurons avec confiance que L1 ou L2 est le véritable modèle.
C'est un peu circulaire. Pardonnez-moi si c'est un peu désinvolte, mais si vous savez que LASSO (crête) est la meilleure solution, vous ne vous demanderez pas comment la modéliser de manière appropriée; vous aurez juste à adapter un modèle LASSO (crête). Si vous êtes absolument certain que la bonne réponse est la régression LASSO (crête), vous êtes clairement convaincu qu'il n'y aurait aucune raison de perdre du temps à installer un filet élastique. Mais si vous êtes un peu moins certain que LASSO (arête) est la bonne façon de procéder, j'estime qu'il est logique d'estimer un modèle plus flexible et d'évaluer dans quelle mesure les données corroborent la croyance antérieure.
C'est également vrai, mais je pense que c'est circulaire pour une raison similaire: si vous avez estimé une solution optimale et que vous trouvez queα ∉ { 0 , 1 } , alors c'est le modèle supporté par les données. D'un côté, oui, votre modèle estimé n'est pas le vrai modèle, mais je me demande comment on pourrait savoir que le vrai modèle est α = 1 (ou α = 0 ) avant toute estimation du modèle. Il peut y avoir des domaines dans lesquels vous avez ce type de connaissances préalables, mais mon travail professionnel n'en fait pas partie.
C’est vrai, mais à l’étape où l’on envisage la méthode à utiliser, on ne saura pas lequel du filet élastique, de la crête ou du LASSO est le meilleur. Si l’une des raisons pour lesquelles la meilleure solution doit être LASSO ou la régression de crête, nous sommes dans le domaine de la revendication (1). Si nous ne savons toujours pas quel est le meilleur choix, nous pourrons alors tester les solutions LASSO, crêtes et réseaux de treillis élastiques et choisir ensuite un modèle final (ou, si vous êtes un universitaire, écrivez simplement votre article sur les trois ). Cette situation d’incertitude antérieure nous placera soit dans le domaine de la revendication (2), où le vrai modèle est LASSO / crête mais nous ne le savions pas à l’avance, et nous avons accidentellement sélectionné le mauvais modèle en raison d’hyperparamètres mal identifiés, ou Le filet élastique est en fait la meilleure solution.
2. Quels sont l'intuition et les maths derrière le filet élastique?
Hui Zou et Trevor Hastie. " Régularisation et sélection variable via le filet élastique ." Statistique JR. Soc., Vol 67 (2005), partie 2., p. 301-320.
Richard Hardy souligne que cela est développé plus en détail dans Hastie et al. "Les éléments de l’apprentissage statistique", chapitres 3 et 18.
C'est une question qui m'a été posée dans les commentaires:
J'apprécie que l'esprit de la question soit le suivant: "Si c'est comme vous le prétendez et que deux pénalités sont bonnes, pourquoi ne pas en ajouter une autre?" Mais je pense que la réponse réside dans la raison pour laquelle nous régularisons en premier lieu.
Mettant de côté l'un ou l'autre de ces problèmes, le modèle régularisé peut encore surpasser le modèle ML, car les propriétés de rétrécissement des estimateurs sont "pessimistes" et ramènent les coefficients vers 0.
la source
Je suis généralement d’accord avec la réponse de @Sycorax, mais j’aimerais ajouter quelques réserves.
Dire que "le filet élastique est toujours préférable à la régression lasso & crête" peut être un peu trop fort. Dans les échantillons de taille petite ou moyenne, le réseau élastique peut ne pas sélectionner de solution pure de LASSO ni de solution d’arête pure, même si l’une ou l’autre est en fait la solution pertinente. Avec de fortes connaissances préalables, il pourrait être judicieux de choisir LASSO ou une crête à la place du filet élastique. Cependant, en l’absence de connaissances préalables, le filet élastique devrait être la solution privilégiée.
En outre, le filet élastique est plus onéreux en termes de calcul que LASSO ou le faîtage, car le poids relatif de LASSO par rapport au faîtage doit être sélectionné à l'aide de la validation croisée. Si une grille raisonnable de valeurs alpha est [0,1] avec une taille de pas de 0,1, cela signifierait que le réseau élastique est environ 11 fois plus coûteux en calcul que LASSO ou la crête. (LASSO et Ridge n’ayant pas la même complexité de calcul, le résultat obtenu n’est qu’une approximation grossière.)
la source