Normes Ridge & LASSO

12

Cet article suit celui-ci: pourquoi l'estimation des crêtes devient-elle meilleure que l'OLS en ajoutant une constante à la diagonale?

Voici ma question:

Pour autant que je sache, la régularisation des crêtes utilise une norme $\ell_2$ (distance euclidienne). Mais pourquoi utilisons-nous le carré de cette norme? (une application directe de $\ell_2$ résulterait de la racine carrée de la somme des beta au carré).

À titre de comparaison, nous ne faisons pas cela pour le LASSO, qui utilise une norme $\ell_1$ pour régulariser. Mais ici, c'est la norme "réelle" $\ell_1$ (juste la somme du carré des valeurs absolues bêta, et non le carré de cette somme).

Quelqu'un peut-il m'aider à clarifier?

lasso regularization ridge-regression SE CASSER LA GUEULE
la source

2

Le terme de pénalité dans la régression de crête est la norme L2 au carré. Voir ces diapositives écrites par Tibshirani à titre d'exemple (diapositive 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Voir aussi ici en.wikipedia.org/wiki/Tikhonov_regularization

boscovich

Petit point de clarification, ce sont des slides de Ryan Tibshirani pas Rob.

Ellis Valentiner

ok, merci beaucoup pour la clarification. Mais je ne comprends pas pourquoi au carré pour L2 et pas au carré pour L1. N'avons-nous pas de formules générales pour toute régularisation?

PLOTZ

@ user12202013: merci de l'avoir signalé. Je ne l'ai pas remarqué.

Boscovich

9

La crête et le lasso sont deux façons de régulariser et de régresser. La régression au lasso impose une contrainte sur la somme des coefficients absolus:

$\sum_i \sqrt{\beta_i^2} = ||\beta||_1$

La régression de crête impose une contrainte de la somme des différences au carré:

$\sum_i \beta_i^2 = \sqrt{\sum_i \beta_i^2}^2 = ||\beta_i||_2^2$

Vous avez suggéré d'introduire une autre norme, la longueur euclidienne des coefficients:

$\sqrt{\sum_i \beta_i^2} = ||\beta_i||_2$

La différence entre la régression Ridge et la longueur euclidienne est la quadrature. Cela change l'interprétation de la régularisation. Alors que la crête et la longueur euclidienne se régularisent vers zéro, la régression de la crête diffère également le degré de régularisation. Les coefficients plus éloignés de zéro tirent plus fort vers zéro. Cela le rend plus stable autour de zéro car la régularisation évolue progressivement autour de zéro. Ce n'est pas le cas pour la longueur euclidienne, ni d'ailleurs pour la régression au lasso.

Pieter
la source

7

Il existe de nombreuses approches pénalisées qui ont maintenant toutes sortes de fonctions de pénalité différentes (crête, lasso, MCP, SCAD). La question de savoir pourquoi se présente sous une forme particulière est essentiellement "quels avantages / inconvénients une telle sanction offre-t-elle?".

Les propriétés d'intérêt peuvent être:

1) estimateurs presque sans biais (notez que tous les estimateurs pénalisés seront biaisés)

2) Clarté (notez que la régression des crêtes ne produit pas de résultats clairsemés, c'est-à-dire qu'elle ne réduit pas les coefficients jusqu'à zéro)

3) Continuité (pour éviter l'instabilité dans la prédiction du modèle)

Ce ne sont là que quelques propriétés qui pourraient intéresser une fonction de pénalité.

Il est beaucoup plus facile de travailler avec une somme de dérivations et de travail théorique: eg et . Imaginez si nous avions $||\beta||_2^2=\sum |\beta_i|^2$ $||\beta||_1 = \sum |\beta_i|$ ou. La prise de dérivés (qui est nécessaire pour montrer des résultats théoriques comme la cohérence, la normalité asymptotique, etc.) serait pénible avec des pénalités comme celle-là. $\sqrt{\left(\sum |\beta_i|^2\right)}$ $\left( \sum |\beta_i|\right)^2$

bdeonovic
la source

OK merci. Mais pourquoi au carré pour L2 et non au carré pour L1? N'avons-nous pas de formules générales pour toute régularisation? Cela me

laisse

@PLOTZ J'ai ajouté un peu à ma réponse.

bdeonovic

Merci beaucoup Benjamin! C'est sûr que c'est plus clair maintenant! Je n'ai pas obtenu ce but théorique avant votre réponse. Merci beaucoup pour votre réponse.

PLOTZ

@Benjamin: au point # 1 vous a fait la moyenne « ( pas tous les estimateurs seront pénalisées non biaisée) »? La régression des crêtes - pour n'en nommer qu'un - est biaisée.

Boscovich

whoops oui merci d'avoir attrapé ça! Je pense qu'en fait, tous les estimateurs pénalisés seront biaisés.

bdeonovic

5

En fait, le carré de la norme et de la norme provient d'une même classe de régularisation: $\ell_2$ $\ell_1$ $\|\boldsymbol{\beta}\|_p^p$ lorsque . $p > 0$

La régression Ridge utilise alors , et le Lasso mais on peut utiliser d'autres valeurs de . $p=2$ $p=1$ $p$

Par exemple, vous avez une solution clairsemée pour toutes les valeurs de , et plus la valeur de petite, plus la solution est clairsemée. $p \leq 1$ $p$

Pour des valeurs de votre objectif n'est plus fluide, donc l'optimisation devient plus difficile; pour $p \leq 1$ l'objectif est non convexe et donc l'optimisation encore plus difficile ... $p<1$

Tonio Bonnef
la source

2

Je crois qu'il y a une réponse encore plus simple ici, bien qu'il soit toujours difficile de répondre aux questions «pourquoi» lorsqu'une technique est développée. Le carré norme carré est utilisée pour que le terme de régularisation soit facilement différenciable. La régression de crête minimise: $l_2$

‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\|\mathbf{y - X\beta}\|^2_2+\lambda\|\beta\|_2^2$

Qui peut aussi s'écrire:

‖ y - X β ‖_{2}^{2} + λ β^{T} β

$\|\mathbf{y - X\beta}\|^2_2+\lambda\beta^T\beta$

Cela peut maintenant être facilement différencié par rapport à pour obtenir la solution de forme fermée: $\beta$

{\hat{β}}^{crête} = (X^{T} X + λ je)^{- 1} X^{T} y

$\hat\beta^{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

d'où toute sorte d'inférence peut être dérivée.

Tim Atreides
la source

1

Considérons une autre différence importante entre l'utilisation du carré de $\ell_2$ $\ell_2$ $\ell_2$ $x$ $||x||_2$ $x$ $\frac{x}{ ||x||_2}$ $\ell_2$ $\beta=0$ $\ell_2$

$\ell_2$ $\ell_2$

psboonstra
la source

Normes Ridge & LASSO

Réponses: