Qu'est-ce que la régularisation du réseau élastique et comment résoudre les inconvénients de Ridge (

35

La régularisation par filet élastique est-elle toujours préférée à Lasso & Ridge, car elle semble résoudre les inconvénients de ces méthodes? Quelle est l'intuition et quel est le calcul derrière le filet élastique?

GeorgeOfTheRF
la source
6
Découvrez Hastie et al. "Les éléments de l'apprentissage statistique", chapitres 3 et 18 (recherche "filet élastique").
Richard Hardy

Réponses:

42

1. Quelle méthode est préférée?

Oui, le filet élastique est toujours préférable à la régression lasso et crête, car il résout les limitations des deux méthodes, tout en incluant chacune d’elles comme cas spéciaux. Ainsi, si la solution faîtière ou lasso est effectivement la meilleure, toute bonne routine de sélection de modèle l’identifiera dans le cadre du processus de modélisation.

Les commentaires à mon post ont souligné que les avantages de filet élastique ne sont pas incompétents. Je persiste à croire que la généralité de la régression nette élastique reste préférable à la régularisation L1 ou L2 seule. Plus précisément, je pense que les points de discorde entre moi et les autres sont directement liés aux hypothèses que nous sommes disposés à formuler sur le processus de modélisation. En présence de connaissances solides sur les données sous-jacentes, certaines méthodes seront préférées aux autres. Cependant, ma préférence pour le filet élastique découle de mon scepticisme quant au fait que nous saurons avec confiance que L1 ou L2 est le véritable modèle.

  1. Affirmation: la connaissance préalable peut éviter la nécessité d'utiliser la régression par réseau élastique.

C'est un peu circulaire. Pardonnez-moi si c'est un peu désinvolte, mais si vous savez que LASSO (crête) est la meilleure solution, vous ne vous demanderez pas comment la modéliser de manière appropriée; vous aurez juste à adapter un modèle LASSO (crête). Si vous êtes absolument certain que la bonne réponse est la régression LASSO (crête), vous êtes clairement convaincu qu'il n'y aurait aucune raison de perdre du temps à installer un filet élastique. Mais si vous êtes un peu moins certain que LASSO (arête) est la bonne façon de procéder, j'estime qu'il est logique d'estimer un modèle plus flexible et d'évaluer dans quelle mesure les données corroborent la croyance antérieure.

  1. Revendication: Des données modestement volumineuses ne permettront pas la découverte des solutions L1 ou L2 comme il convient, même dans les cas où la solution L1 ou L2 est le véritable modèle.

C'est également vrai, mais je pense que c'est circulaire pour une raison similaire: si vous avez estimé une solution optimale et que vous trouvez que α{0,1}, alors c'est le modèle supporté par les données. D'un côté, oui, votre modèle estimé n'est pas le vrai modèle, mais je me demande comment on pourrait savoir que le vrai modèle est α=1 (ou α=0 ) avant toute estimation du modèle. Il peut y avoir des domaines dans lesquels vous avez ce type de connaissances préalables, mais mon travail professionnel n'en fait pas partie.

  1. Revendication: l'introduction d'hyperparamètres supplémentaires augmente le coût de calcul de l'estimation du modèle.

λλαλ

  1. Revendication: L’amélioration des performances du filet élastique par rapport à LASSO ou à la régression de crête n’est pas garantie.

C’est vrai, mais à l’étape où l’on envisage la méthode à utiliser, on ne saura pas lequel du filet élastique, de la crête ou du LASSO est le meilleur. Si l’une des raisons pour lesquelles la meilleure solution doit être LASSO ou la régression de crête, nous sommes dans le domaine de la revendication (1). Si nous ne savons toujours pas quel est le meilleur choix, nous pourrons alors tester les solutions LASSO, crêtes et réseaux de treillis élastiques et choisir ensuite un modèle final (ou, si vous êtes un universitaire, écrivez simplement votre article sur les trois ). Cette situation d’incertitude antérieure nous placera soit dans le domaine de la revendication (2), où le vrai modèle est LASSO / crête mais nous ne le savions pas à l’avance, et nous avons accidentellement sélectionné le mauvais modèle en raison d’hyperparamètres mal identifiés, ou Le filet élastique est en fait la meilleure solution.

  1. Revendication: La sélection d'hyperparamètre sans validation croisée est fortement biaisée et sujette aux erreurs .

α

2. Quels sont l'intuition et les maths derrière le filet élastique?

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

α[0,1].

Hui Zou et Trevor Hastie. " Régularisation et sélection variable via le filet élastique ." Statistique JR. Soc., Vol 67 (2005), partie 2., p. 301-320.

Richard Hardy souligne que cela est développé plus en détail dans Hastie et al. "Les éléments de l’apprentissage statistique", chapitres 3 et 18.

Lq

C'est une question qui m'a été posée dans les commentaires:

L3γγ0L3

J'apprécie que l'esprit de la question soit le suivant: "Si c'est comme vous le prétendez et que deux pénalités sont bonnes, pourquoi ne pas en ajouter une autre?" Mais je pense que la réponse réside dans la raison pour laquelle nous régularisons en premier lieu.

L1nnL2pL2p>n

Mettant de côté l'un ou l'autre de ces problèmes, le modèle régularisé peut encore surpasser le modèle ML, car les propriétés de rétrécissement des estimateurs sont "pessimistes" et ramènent les coefficients vers 0.

L3

L1L2

L1L2

L2L1L1L2

LqL1L2

Sycorax dit Réintégrer Monica
la source
4
Dire que "le filet élastique est toujours préférable à la régression lasso & crête" peut être un peu trop fort. Dans les échantillons de taille petite ou moyenne, le réseau élastique peut ne pas sélectionner de solution pure de LASSO ni de solution d’arête pure, même si l’une ou l’autre est en fait la solution pertinente. Avec de fortes connaissances préalables, il pourrait être judicieux de choisir LASSO ou une crête à la place du filet élastique. Cependant, en l’absence de connaissances préalables, le filet élastique devrait être la solution privilégiée.
Richard Hardy
4
α
7
γγ0
5
L1L2L3
3
"Nous pouvons tester LASSO, les solutions de crêtes et de réseaux élastiques, et choisir un modèle final". Nous pouvons le faire, mais il s’agit bien sûr d’une procédure nouvelle qui optimise un critère sujet à des erreurs aléatoires, dont les performances peuvent être meilleures ou non. que LASSo, ou la régression de crête, ou net élastique seul.
Scortchi - Réintégrer Monica
11

Je suis généralement d’accord avec la réponse de @Sycorax, mais j’aimerais ajouter quelques réserves.

Dire que "le filet élastique est toujours préférable à la régression lasso & crête" peut être un peu trop fort. Dans les échantillons de taille petite ou moyenne, le réseau élastique peut ne pas sélectionner de solution pure de LASSO ni de solution d’arête pure, même si l’une ou l’autre est en fait la solution pertinente. Avec de fortes connaissances préalables, il pourrait être judicieux de choisir LASSO ou une crête à la place du filet élastique. Cependant, en l’absence de connaissances préalables, le filet élastique devrait être la solution privilégiée.

En outre, le filet élastique est plus onéreux en termes de calcul que LASSO ou le faîtage, car le poids relatif de LASSO par rapport au faîtage doit être sélectionné à l'aide de la validation croisée. Si une grille raisonnable de valeurs alpha est [0,1] avec une taille de pas de 0,1, cela signifierait que le réseau élastique est environ 11 fois plus coûteux en calcul que LASSO ou la crête. (LASSO et Ridge n’ayant pas la même complexité de calcul, le résultat obtenu n’est qu’une approximation grossière.)

Richard Hardy
la source
1
Ou bien, la régression LASSO ou de crête peut ne pas améliorer les performances prédictives par rapport à la régression non pénalisée.
Scortchi
4
Quelle sorte de connaissance antérieure amènerait-on à préférer Lasso et quelle sorte de connaissance antérieure amènerait-on à préférer Ridge?
amibe dit de réintégrer Monica
4
@amoeba, s'il est plausible que tous les régresseurs soient pertinents, mais qu'ils soient fortement corrélés, aucune sélection de variable n'est nécessaire et, par conséquent, l'arête pourrait être préférée. Si, en revanche, certains des régresseurs sont susceptibles d'être totalement hors de propos (mais nous ne savons tout simplement pas lesquels), la sélection de variables est nécessaire et LASSO peut être préféré. Cette connaissance serait prise dans le domaine spécialisé. Je pense qu'il peut y avoir des exemples dans Hastie et al. "Les éléments de l'apprentissage statistique" ou dans la littérature correspondante, je ne me souviens tout simplement pas de l'endroit où j'ai lu cela.
Richard Hardy
1
@kjetilbhalvorsen, merci, cela a été utile.
Richard Hardy
1
@ amoeba, Ridge est préférable pour les données corrélées, où L2 encourage de nombreuses petites pondérations (moyennage) sur les entrées. L'exemple classique étant des mesures répétées avec bruit indépendant mieux où 1 var domine l’autre, le cas classique étant des données hiérarchiques: où les coefficients doivent être estimés au plus haut niveau de la hiérarchie.
seanv507