Cet article suit celui-ci: pourquoi l'estimation des crêtes devient-elle meilleure que l'OLS en ajoutant une constante à la diagonale?
Voici ma question:
Pour autant que je sache, la régularisation des crêtes utilise une norme (distance euclidienne). Mais pourquoi utilisons-nous le carré de cette norme? (une application directe de résulterait de la racine carrée de la somme des beta au carré).
À titre de comparaison, nous ne faisons pas cela pour le LASSO, qui utilise une norme pour régulariser. Mais ici, c'est la norme "réelle" (juste la somme du carré des valeurs absolues bêta, et non le carré de cette somme).
Quelqu'un peut-il m'aider à clarifier?
lasso
regularization
ridge-regression
SE CASSER LA GUEULE
la source
la source
Réponses:
La crête et le lasso sont deux façons de régulariser et de régresser. La régression au lasso impose une contrainte sur la somme des coefficients absolus:
La régression de crête impose une contrainte de la somme des différences au carré:
Vous avez suggéré d'introduire une autre norme, la longueur euclidienne des coefficients:
La différence entre la régression Ridge et la longueur euclidienne est la quadrature. Cela change l'interprétation de la régularisation. Alors que la crête et la longueur euclidienne se régularisent vers zéro, la régression de la crête diffère également le degré de régularisation. Les coefficients plus éloignés de zéro tirent plus fort vers zéro. Cela le rend plus stable autour de zéro car la régularisation évolue progressivement autour de zéro. Ce n'est pas le cas pour la longueur euclidienne, ni d'ailleurs pour la régression au lasso.
la source
Il existe de nombreuses approches pénalisées qui ont maintenant toutes sortes de fonctions de pénalité différentes (crête, lasso, MCP, SCAD). La question de savoir pourquoi se présente sous une forme particulière est essentiellement "quels avantages / inconvénients une telle sanction offre-t-elle?".
Les propriétés d'intérêt peuvent être:
1) estimateurs presque sans biais (notez que tous les estimateurs pénalisés seront biaisés)
2) Clarté (notez que la régression des crêtes ne produit pas de résultats clairsemés, c'est-à-dire qu'elle ne réduit pas les coefficients jusqu'à zéro)
3) Continuité (pour éviter l'instabilité dans la prédiction du modèle)
Ce ne sont là que quelques propriétés qui pourraient intéresser une fonction de pénalité.
Il est beaucoup plus facile de travailler avec une somme de dérivations et de travail théorique: eg et | | β | | 1 = ∑ | β i | . Imaginez si nous avions √| | β||22= ∑ |βje|2 | | β| |1= ∑ | βje| ou(∑|βi|)2. La prise de dérivés (qui est nécessaire pour montrer des résultats théoriques comme la cohérence, la normalité asymptotique, etc.) serait pénible avec des pénalités comme celle-là.( ∑ | βje|2)--------√ ( ∑ | βje| )2
la source
En fait, le carré de la norme et de la norme ℓ 1 provient d'une même classe de régularisation: ‖ β ‖ p pℓ2 ℓ1 ∥ β ∥pp lorsque .p > 0
La régression Ridge utilise alors , et le Lasso p = 1 mais on peut utiliser d'autres valeurs de p .p = 2 p = 1 p
Par exemple, vous avez une solution clairsemée pour toutes les valeurs de , et plus la valeur de p est petite, plus la solution est clairsemée.p ≤ 1 p
Pour des valeurs de votre objectif n'est plus fluide, donc l'optimisation devient plus difficile; pourp ≤ 1 l'objectif est non convexe et donc l'optimisation encore plus difficile ...p < 1
la source
Je crois qu'il y a une réponse encore plus simple ici, bien qu'il soit toujours difficile de répondre aux questions «pourquoi» lorsqu'une technique est développée. Le carré norme 2 au carré est utilisée pour que le terme de régularisation soit facilement différenciable. La régression de crête minimise:l2
Qui peut aussi s'écrire:
Cela peut maintenant être facilement différencié par rapport à pour obtenir la solution de forme fermée:β
d'où toute sorte d'inférence peut être dérivée.
la source
Considérons une autre différence importante entre l'utilisation du carré deℓ2 ℓ2 ℓ2 X | | x | |2 X X| | x | |2 ℓ2 β= 0 ℓ2
la source