Pourquoi utiliser la régularisation L1 sur L2?

10

En effectuant un modèle de régression linéaire à l'aide d'une fonction de perte, pourquoi devrais-je utiliser au lieu de la régularisation ?L1L2

Est-il préférable de prévenir le sur-ajustement? Est-ce déterministe (donc toujours une solution unique)? Est-il meilleur dans la sélection des fonctionnalités (parce que la production de modèles clairsemés)? Disperse-t-il les poids entre les caractéristiques?

astudentofmaths
la source
2
L2 ne fait pas de sélection de variable, donc L1 est définitivement meilleur dans ce domaine.
Michael M

Réponses:

5

Fondamentalement, nous ajoutons un terme de régularisation afin d'empêcher les coefficients de s'adapter si parfaitement à la sur-adaptation.

La différence entre L1 et L2 est L1 est la somme des poids et L2 est juste la somme du carré des poids.

L1 ne peut pas être utilisé dans les approches basées sur un gradient car il n'est pas différentiable contrairement à L2

L1 permet d'effectuer la sélection d'entités dans des espaces d'entités clairsemés. La sélection des fonctionnalités consiste à savoir quelles entités sont utiles et lesquelles sont redondantes.

La différence entre leurs propriétés peut être résumée comme suit:

l1 vs l2

Bathini Pranay kumar
la source
1
Il n'est pas vrai que "L1 ne peut pas être utilisé dans des approches basées sur un gradient". Keras le prend en charge , par exemple. Oui, la dérivée est toujours constante, il est donc plus difficile pour la descente de gradient de trouver le minimum. Mais la régularisation est un petit terme dans la fonction de perte, donc ce n'est pas très important dans le grand schéma des choses.
Ricardo Cruz
-1

L2 a un avantage très important pour L1, c'est l'invariance à la rotation et à l'échelle.

Ceci est particulièrement important dans l'application géographique / physique.

Supposons que votre technicien ait accidentellement installé votre capteur dans un ange à 45 degrés, L1 serait affecté, tandis que L2 (distance euclidienne) resterait le même.

Chati Denati
la source
4
Ce n'est pas du tout une réponse à la question.
kbrose
Pourriez-vous expliquer l'invariance, s'il vous plaît?
aneesh joshi
@Chati, la question concerne la régularisation. Vous le confondez avec d'autres utilisations de la norme 1 et de la norme 2 dans les fonctions de perte.
Ricardo Cruz