En effectuant un modèle de régression linéaire à l'aide d'une fonction de perte, pourquoi devrais-je utiliser au lieu de la régularisation ?
Est-il préférable de prévenir le sur-ajustement? Est-ce déterministe (donc toujours une solution unique)? Est-il meilleur dans la sélection des fonctionnalités (parce que la production de modèles clairsemés)? Disperse-t-il les poids entre les caractéristiques?
linear-regression
regularization
astudentofmaths
la source
la source
Réponses:
Fondamentalement, nous ajoutons un terme de régularisation afin d'empêcher les coefficients de s'adapter si parfaitement à la sur-adaptation.
La différence entre L1 et L2 est L1 est la somme des poids et L2 est juste la somme du carré des poids.
L1 ne peut pas être utilisé dans les approches basées sur un gradient car il n'est pas différentiable contrairement à L2
L1 permet d'effectuer la sélection d'entités dans des espaces d'entités clairsemés. La sélection des fonctionnalités consiste à savoir quelles entités sont utiles et lesquelles sont redondantes.
La différence entre leurs propriétés peut être résumée comme suit:
la source
L2 a un avantage très important pour L1, c'est l'invariance à la rotation et à l'échelle.
Ceci est particulièrement important dans l'application géographique / physique.
Supposons que votre technicien ait accidentellement installé votre capteur dans un ange à 45 degrés, L1 serait affecté, tandis que L2 (distance euclidienne) resterait le même.
la source