Pour le LASSO (et d'autres procédures de sélection de modèle), il est crucial de redimensionner les prédicteurs. La recommandation générale que je suis consiste simplement à utiliser une normalisation de 0 moyenne, 1 écart-type pour les variables continues. Mais que faire avec les nuls?
Par exemple, certains exemples appliqués de la même (excellente) école d'été que j'ai liés à la mise à l'échelle des variables continues doivent être compris entre 0 et 1 (pas très bien avec les valeurs aberrantes cependant), probablement pour être comparables aux variables muettes. Mais même cela ne garantit pas que les coefficients doivent être du même ordre de grandeur, et donc pénalisés de la même manière, la principale raison du rééchelonnement, non?
Réponses:
Selon Tibshirani ( LA MÉTHODE LASSO POUR LA SÉLECTION VARIABLE DANS LE MODÈLE COX, Statistics in Medicine, VOL. 16, 385-395 (1997) ), qui a littéralement écrit le livre sur les méthodes de régularisation, vous devriez standardiser les mannequins. Cependant, vous perdez alors l'interprétabilité simple de vos coefficients. Si vous ne le faites pas, vos variables ne sont pas sur un pied d'égalité. Vous faites essentiellement pencher la balance en faveur de vos variables continues (très probablement). Donc, si votre objectif principal est la sélection de modèles, il s'agit d'une erreur flagrante. Cependant, si vous êtes plus intéressé par l'interprétation, ce n'est peut-être pas la meilleure idée.
La recommandation se trouve à la page 394:
la source
Le billet de blog d'Andrew Gelman, Quand normaliser les entrées de régression et quand les laisser tranquilles , vaut également le coup d'œil. Cette partie en particulier est pertinente:
la source
x -> x / 2
C'est plus un commentaire, mais trop long. L' un des plus logiciels utilisés pour Lasso (et amis) est R de
glmnet
. Depuis la page d'aide, imprimée par?glmnet
:la source