Le coefficient variable augmente, puis diminue à mesure que lambda diminue (LASSO)

8

Je régresse un prédicteur continu sur plus de 60 variables (à la fois continues et catégorielles) en utilisant LASSO (glmnet).

En examinant le tracé de trace variable, je remarque que lorsque le log lambda augmente, l'une des variables clés a un coefficient qui augmente réellement. Puis, après un certain point, il commence à diminuer comme on pourrait s'y attendre.

Pour m'assurer que ce n'était pas un coup de chance, j'ai exécuté 10 modèles à l'aide de bootstraps et obtenu des résultats très similaires.

Est-ce possible ou y a-t-il un problème avec les données? Si elle est légitime, que nous apprend cette tendance du coefficient de la variable sur la variable et la relation avec la réponse?

Graphique de trace variable initial 10 modèles bootstrappés

matsuo_basho
la source

Réponses:

10

Ce n'est pas seulement possible, c'est un phénomène très courant.

Notez que la pénalité est . Ainsi, certains composants peuvent augmenter en ampleur tant que d'autres diminuent, sans augmenter la norme dans son ensemble. Parfois, à mesure que augmente, un (ou quelques) coefficient (s) peut augmenter en taille au détriment des autres qui, ensemble, diminuent au moins aussi rapidement, car cela aide à maintenir le taux d'augmentation du manque de durée d'adaptation plus que les réduire tous ensemble. λ||β||1λ

Vous aimeriez peut-être tracer ce qui arrive àlorsque augmente.i|βi|logλ

Vous verrez souvent ce genre de comportement quand il y a une certaine corrélation entre les prédicteurs - il peut y avoir une sorte d'effet de substitution.

Notez que dans votre top plotest presque toujours en baisse ou assez stable (la petite augmentation occasionnelle sera compensée par des diminutions des coefficients d'autres variables encore)|β4|+|β11|

Glen_b -Reinstate Monica
la source
Qu'est-ce que cette dynamique dit de l'effet de la variable sur la réponse par rapport à une décroissance avec une lambda croissante?
matsuo_basho
Je ne sais pas exactement ce que vous demandez là-bas, mais vous devez considérer l'effet de toutes les variables ensemble. Par exemple, si est presque constant dans une grande partie de cette augmentation de avec l'augmentation de , comme nous le voyons dans votre graphique supérieur, vous voudrez probablement considérer quel est l'effet de ce contraste. . L'effet de seul peut être déroutant car il vous manque la moitié de l'histoire. β4β11β4λx4
Glen_b -Reinstate Monica
+1, mais serait-il possible d'obtenir un exemple constructif montrant comment et pourquoi de telles choses se produisent?
Richard Hardy
Permettez-moi de vous expliquer pourquoi je pose la question. Je voudrais identifier les variables les plus importantes du modèle. D'après les modèles que j'exécute, nous voyons que les variables 4 et 11 ou 24 sont systématiquement dans le modèle lorsque lambda est élevé. Ainsi, nous pouvons dire qu'ils sont importants. Bien que la variable 4 ait généralement un coefficient positif, la façon dont elle change est un peu déroutante. Cette dynamique nous dit-elle quelque chose sur l'interprétation de l'effet des variables sur la réponse?
matsuo_basho