J'ai lu trois principales raisons de normaliser les variables avant quelque chose comme la Lasso
régression:
1) Interprétabilité des coefficients.
2) Capacité de classer l'importance du coefficient en fonction de la magnitude relative des estimations du coefficient après retrait.
3) Pas besoin d'intercepter.
Mais je m'interroge sur le point le plus important. Avons-nous des raisons de penser que la normalisation améliorerait la généralisation hors modèle du modèle? De plus, je m'en fiche si je n'ai pas besoin d'une interception dans mon modèle; en ajouter un ne me fait pas de mal.
Réponses:
La régression de Lasso impose des contraintes sur la taille des coefficients associés à chaque variable. Cependant, cette valeur dépendra de l'ampleur de chaque variable. Il faut donc centrer et réduire, ou standardiser, les variables.
Le résultat du centrage des variables signifie qu'il n'y a plus d'interception. Soit dit en passant, cela s'applique également à la régression des crêtes.
Une autre bonne explication est ce billet: Besoin de centrer et de standardiser les données en régression
la source
Le paramètre de pénalité L1 est une somme des termes bêta absolus. Si les variables sont toutes de dimensionnalité différente, ce terme n'est vraiment pas additif même s'il n'y a mathématiquement aucune erreur.
Cependant, je ne vois pas les variables factices / catégorielles souffrant de ce problème et je pense qu'elles n'ont pas besoin d'être normalisées. normaliser ceux-ci peut simplement réduire l'interprétabilité des variables
la source