l'opportunité de remettre à l'échelle l'indicateur / les prédicteurs binaires / fictifs pour LASSO

30

Pour le LASSO (et d'autres procédures de sélection de modèle), il est crucial de redimensionner les prédicteurs. La recommandation générale que je suis consiste simplement à utiliser une normalisation de 0 moyenne, 1 écart-type pour les variables continues. Mais que faire avec les nuls?

Par exemple, certains exemples appliqués de la même (excellente) école d'été que j'ai liés à la mise à l'échelle des variables continues doivent être compris entre 0 et 1 (pas très bien avec les valeurs aberrantes cependant), probablement pour être comparables aux variables muettes. Mais même cela ne garantit pas que les coefficients doivent être du même ordre de grandeur, et donc pénalisés de la même manière, la principale raison du rééchelonnement, non?

László
la source
2
Réponse courte - non, ne pas redimensionner les mannequins
Affine
4
Lié à cela
Julieth
@julieth, merci beaucoup, faites-moi savoir si vous avez trouvé des réponses depuis.
László

Réponses:

27

Selon Tibshirani ( LA MÉTHODE LASSO POUR LA SÉLECTION VARIABLE DANS LE MODÈLE COX, Statistics in Medicine, VOL. 16, 385-395 (1997) ), qui a littéralement écrit le livre sur les méthodes de régularisation, vous devriez standardiser les mannequins. Cependant, vous perdez alors l'interprétabilité simple de vos coefficients. Si vous ne le faites pas, vos variables ne sont pas sur un pied d'égalité. Vous faites essentiellement pencher la balance en faveur de vos variables continues (très probablement). Donc, si votre objectif principal est la sélection de modèles, il s'agit d'une erreur flagrante. Cependant, si vous êtes plus intéressé par l'interprétation, ce n'est peut-être pas la meilleure idée.

La recommandation se trouve à la page 394:

La méthode du lasso nécessite une standardisation initiale des régresseurs, afin que le schéma de pénalisation soit équitable pour tous les régresseurs. Pour les régresseurs catégoriels, on code le régresseur avec des variables fictives, puis standardise les variables fictives. Comme l'a souligné un arbitre, cependant, l'échelle relative entre les variables continues et catégorielles dans ce schéma peut être quelque peu arbitraire.

rocrat
la source
3
pourriez-vous fournir une référence précise à l'endroit où Tibshirani suggère de standardiser les mannequins.
seanv507
@ seanv507 "... on code les régresseurs avec des variables muettes puis standardise les variables muettes ". Je pense que l'explication du rocrat est correcte: en général, vous voulez que tous les prédicteurs, y compris les nuls, aient la même échelle et la même variance pour que la pénalisation soit juste.
Robert Kubrick
1
@RobertKubrick Je ne suis pas d'accord. La raison fondamentale de la régularisation est que de petits changements devraient avoir de petits effets. Le cas idéal est donc que toutes vos variables ont une échelle physique naturelle par rapport à votre variable dépendante et que vous ne les normalisez pas. En règle générale, nous ne connaissons pas l'échelle correcte, nous avons donc recours à la normalisation. Cependant, les variables catégorielles ont une telle échelle naturelle, à savoir la probabilité qu'elles soient 0 ou 1: je dirais qu'une variable qui est la plupart du temps 0, est moins importante qu'une variable qui bascule entre 0/1. Au lieu de cela, la réponse de Jeff semble appropriée.
seanv507
8

Le billet de blog d'Andrew Gelman, Quand normaliser les entrées de régression et quand les laisser tranquilles , vaut également le coup d'œil. Cette partie en particulier est pertinente:

Pour comparer les coefficients de différents prédicteurs au sein d'un modèle, la standardisation obtient le feu vert. (Bien que je ne standardise pas les entrées binaires. Je les code comme 0/1, puis je standardise toutes les autres entrées numériques en les divisant par deux écarts-types, les plaçant ainsi à peu près à la même échelle que les variables 0/1.)

Jeff
la source
1
Et quand il dit "ne standardise pas les entrées binaires" , il semble vouloir dire n'importe quel groupe de variables, c'est-à-dire des variables muettes pour les variables catégorielles?
smci
2
p(1-p)p=0,50,25
x -> x / 2σ
peu importe, il semble que tout soit expliqué ici: stat.columbia.edu/~gelman/research/unpublished/…
Alex
3

C'est plus un commentaire, mais trop long. L' un des plus logiciels utilisés pour Lasso (et amis) est R de glmnet. Depuis la page d'aide, imprimée par ?glmnet:

standardize: indicateur logique pour la normalisation des variables x, avant l'ajustement de la séquence du modèle. Les coefficients sont toujours renvoyés sur l'échelle d'origine. La valeur par défaut est «standardize = TRUE». Si les variables sont déjà dans les mêmes unités, vous ne souhaiterez peut-être pas standardiser. Voir les détails ci-dessous pour la normalisation y avec 'family = "gaussian"'.

X

kjetil b halvorsen
la source