Pourquoi Lasso ou ElasticNet fonctionnent mieux que Ridge lorsque les fonctionnalités sont corrélées

17

J'ai un ensemble de 150 fonctionnalités, et beaucoup d'entre elles sont fortement corrélées les unes aux autres. Mon objectif est de prédire la valeur d'une variable discrète, dont la plage est 1-8 . La taille de mon échantillon est de 550 et j'utilise une validation croisée 10 fois .

AFAIK, parmi les méthodes de régularisation (Lasso, ElasticNet et Ridge), Ridge est plus rigoureux à la corrélation entre les caractéristiques. C'est pourquoi je m'attendais à ce qu'avec Ridge, j'obtienne une prédiction plus précise. Cependant, mes résultats montrent que l'erreur absolue moyenne de Lasso ou élastique est d'environ 0,61 alors que ce score est de 0,97 pour la régression de crête. Je me demande quelle serait l'explication de cela. Est-ce parce que j'ai de nombreuses fonctionnalités et que Lasso fonctionne mieux car il fait une sorte de sélection de fonctionnalités, en supprimant les fonctionnalités redondantes?

renakre
la source
1
pourquoi pensez-vous que la crête devrait mieux fonctionner? quelle est votre taille d'échantillon?
bdeonovic
1
Que signifie «plus rigoureux à régresser»?
bdeonovic

Réponses:

21

Supposons que vous ayez deux variables prédictives hautement corrélées , et supposez que les deux sont centrées et mises à l'échelle (pour signifier zéro, la variance un). Alors la pénalité de crête sur le vecteur de paramètre est β 2 1 + β 2 2 tandis que le terme de pénalité au lasso est β 1+ β 2 . Maintenant, puisque le modèle est supposé très colinéaire, de sorte que x et z peuvent plus ou moins se substituer pour prédire Y , autant de combinaisons linéaires de x , z où nous substituons simplement en partieX,zβ12+β22β1+β2XzYx,z pour z , fonctionnera de la même manière que les prédicteurs, par exemple 0,2 x + 0,8 x , 0,3 x + 0,7 z ou 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zsera tout aussi bon que les prédicteurs. Maintenant, regardez ces trois exemples, la pénalité de lasso dans les trois cas est égale, elle est de 1, tandis que la pénalité de crête diffère, elle est respectivement de 0,68, 0,58, 0,5, de sorte que la pénalité de crête préférera une pondération égale des variables colinéaires tandis que la pénalité de lasso ne pourra pas choisir. C'est l'une des raisons pour lesquelles la crête (ou plus généralement, le filet élastique, qui est une combinaison linéaire de lasso et de pénalités de crête) fonctionnera mieux avec les prédicteurs colinéaires: lorsque les données donnent peu de raisons de choisir entre différentes combinaisons linéaires de prédicteurs colinéaires, le lasso ne fera que «errer» tandis que la crête a tendance à choisir une pondération égale. Ce dernier pourrait être une meilleure estimation pour une utilisation avec les données futures! Et, s'il en est ainsi avec les données actuelles, cela pourrait apparaître dans la validation croisée comme de meilleurs résultats avec la crête.

Nous pouvons voir cela d'une manière bayésienne: Ridge et lasso impliquent des informations préalables différentes, et les informations antérieures impliquées par ridge ont tendance à être plus raisonnables dans de telles situations. (Cette explication que j'ai apprise ici, plus ou moins, dans le livre: "Statistical Learning with Sparsity The Lasso and Generalizations" de Trevor Hastie, Robert Tibshirani et Martin Wainwright, mais à ce moment je n'ai pas pu trouver de citation directe).

kjetil b halvorsen
la source
4
Bon point sur la possibilité que la crête fonctionne mieux sur les données futures. La distinction entre l'erreur sur la validation croisée dans les données actuelles et l'utilité sur les nouvelles données est trop souvent ignorée. Pour une estimation de ce dernier, le PO pourrait répéter l'intégralité des processus de construction de modèles LASSO, filet élastique et crête sur plusieurs échantillons de bootstrap des données, puis examiner les erreurs lorsqu'il est appliqué à l'ensemble de données complet. Cela teste au moins le processus de construction de modèles.
EdM
Il n'est pas évident pour moi pourquoi il serait avantageux de choisir des poids égaux pour les données colinéaires? Quelqu'un peut-il élaborer sur ce point?
Ramon Martinez
3

la différence la plus importante entre le lasso et la crête est que le lasso fait naturellement une sélection, en particulier lorsque les covariables sont très corrélées. il est impossible d'être vraiment sûr sans voir les coefficients ajustés, mais il est facile de penser que parmi ces caractéristiques corrélées, beaucoup étaient tout simplement inutiles.

carlo
la source