La standardisation avant Lasso est-elle vraiment nécessaire?

28

J'ai lu trois principales raisons de normaliser les variables avant quelque chose comme la Lassorégression:

1) Interprétabilité des coefficients.

2) Capacité de classer l'importance du coefficient en fonction de la magnitude relative des estimations du coefficient après retrait.

3) Pas besoin d'intercepter.

Mais je m'interroge sur le point le plus important. Avons-nous des raisons de penser que la normalisation améliorerait la généralisation hors modèle du modèle? De plus, je m'en fiche si je n'ai pas besoin d'une interception dans mon modèle; en ajouter un ne me fait pas de mal.

Jase
la source
1
Clarification: vous semblez vouloir demander: "Pourvu que la normalisation soit facultative (l'un des cas spéciaux où les résultats ne sont pas biaisés par des amplitudes différentes), la normalisation améliorera-t-elle la généralisation hors échantillon?" Est-ce correct?
Drew75
@ Drew75 Je préfère une ventilation des cas, par exemple, cela aide-t-il lorsque les résultats sont "biaisés de différentes ampleurs", cela aide-t-il lorsque les résultats ne sont pas biaisés, et cetera, la meilleure réponse couvrira différentes situations.
Jase
1
Alors votre question ne concerne pas le Lasso (car en général une standardisation est nécessaire avant le Lasso). C'est plus général. Peut-être changer le titre et la première phrase de la question.
Drew75
@Drew: C'est plutôt une question à poser: pourquoi est-ce nécessaire (quand n'est-ce pas?)? Qu'est-ce que cela signifie de fausser les résultats (par rapport à quoi?)? Je pense que la question est bonne en l'état.
Scortchi
@ Drew75 Ma question concerne le Lasso.
Jase

Réponses:

21

La régression de Lasso impose des contraintes sur la taille des coefficients associés à chaque variable. Cependant, cette valeur dépendra de l'ampleur de chaque variable. Il faut donc centrer et réduire, ou standardiser, les variables.

Le résultat du centrage des variables signifie qu'il n'y a plus d'interception. Soit dit en passant, cela s'applique également à la régression des crêtes.

Une autre bonne explication est ce billet: Besoin de centrer et de standardiser les données en régression

Drew75
la source
Ce n'est pas une réponse ou une réponse extrêmement indirecte à ma question. Veuillez expliquer le lien entre votre réponse et la généralisation hors échantillon (c'était la question).
Jase
10
@Jase: Il aborde la principale raison de la normalisation, que vous avez omise de votre liste: si vous souhaitez supprimer les prédicteurs avec de petits coefficients (ou sinon utiliser un terme de pénalité en fonction de la magnitude du coefficient), vous devez décider ce qui compte comme "petit" ". Bien que la normalisation ne soit pas obligatoire avant LASSO ou d'autres méthodes de régression pénalisées, il est rarement le cas que les échelles originales dans lesquelles les prédicteurs se mesurent s'avèrent utiles à cette fin.
Scortchi
3
Et le point sur le centrage est que vous ne voulez généralement pas supprimer ou réduire l'interception.
Scortchi
2
λ
2
De manière très générale, la mesure dans laquelle vous rétrécissez dans l' ensemble affectera la généralisation des échantillons aléatoires; la décision quelque peu arbitraire de combien réduire chaque prédicteur par rapport aux autres va affecter la généralisation à de nouveaux échantillons provenant de populations similaires, où les coefficients sont un peu différents, où la distribution des prédicteurs n'est pas nécessairement très similaire à celle de l'ensemble de formation , & c. (Bien sûr, votre question mérite une réponse plus réfléchie.)
Scortchi - Reinstate Monica
2

Le paramètre de pénalité L1 est une somme des termes bêta absolus. Si les variables sont toutes de dimensionnalité différente, ce terme n'est vraiment pas additif même s'il n'y a mathématiquement aucune erreur.

Cependant, je ne vois pas les variables factices / catégorielles souffrant de ce problème et je pense qu'elles n'ont pas besoin d'être normalisées. normaliser ceux-ci peut simplement réduire l'interprétabilité des variables

Sumit Dhar
la source