Pourquoi la régression des crêtes ne peut-elle pas offrir une meilleure interprétabilité que LASSO?

11

J'ai déjà une idée des avantages et des inconvénients de la régression des crêtes et du LASSO.

Pour le LASSO, le terme de pénalité L1 donnera un vecteur de coefficient clairsemé, qui peut être considéré comme une méthode de sélection de caractéristiques. Cependant, il existe certaines limitations pour le LASSO. Si les caractéristiques ont une corrélation élevée, le LASSO ne sélectionnera qu'une seule d'entre elles. De plus, pour les problèmes où > , le LASSO sélectionnera au plus paramètres ( et sont respectivement le nombre d'observations et de paramètres). Celles-ci font du LASSO empiriquement une méthode sous-optimale en termes de prévisibilité par rapport à la régression de crête.n n n ppnnnp

Pour la régression de crête, il offre une meilleure prévisibilité en général. Cependant, son interprétabilité n'est pas aussi agréable que le LASSO.

L'explication ci-dessus se trouve souvent dans les manuels d'apprentissage automatique / d'exploration de données. Cependant, je suis toujours confus à propos de deux choses:

  1. Si nous normalisons la plage de caractéristiques (disons entre 0 et 1, ou avec une moyenne et une variance d'unité nul) et exécutons une régression de crête, nous pouvons toujours avoir une idée de l'importance des caractéristiques en triant les valeurs absolues des coefficients (la caractéristique la plus importante a la valeur absolue la plus élevée des coefficients). Bien que nous ne sélectionnions pas les fonctionnalités de manière explicite, l'interprétabilité n'est pas perdue à l'aide de la régression de crête. Dans le même temps, nous pouvons toujours atteindre une puissance de prédiction élevée. Alors pourquoi avons-nous besoin du LASSO? Est-ce que j'ai râté quelque chose?

  2. Le LASSO est-il préféré en raison de sa nature de sélection des fonctionnalités? À ma connaissance, les raisons pour lesquelles nous avons besoin de la sélection des fonctionnalités sont la capacité de généraliser et la facilité de calcul.

    Pour faciliter le calcul, nous ne voulons pas intégrer les 1 million de fonctionnalités dans notre modèle si nous effectuons des tâches PNL, nous supprimons donc d'abord certaines fonctionnalités évidemment inutiles pour réduire le coût de calcul. Cependant, pour le LASSO, nous ne pouvons connaître le résultat de la sélection des caractéristiques (le vecteur clairsemé) qu'après avoir alimenté toutes les données dans notre modèle, nous ne bénéficions donc pas du LASSO en termes de réduction des coûts de calcul. Nous ne pouvons que faire des prévisions un peu plus rapidement, car maintenant nous n'introduisons que le sous-ensemble de fonctionnalités (disons 500 sur 1 million) dans notre modèle pour générer des résultats prédits.

    Si le LASSO est préféré pour sa capacité à généraliser, nous pouvons également atteindre le même objectif en utilisant la régression de crête (ou tout autre type de régularisation). Pourquoi avons-nous encore besoin de LASSO (ou de filets élastiques)? Pourquoi ne pouvons-nous pas simplement nous en tenir à la régression des crêtes?

Quelqu'un pourrait-il s'il vous plaît jeter des lumières là-dessus? Merci!

Brad Li
la source
3
L1L2
3
Je me demande également quels manuels disent des choses comme Pour la régression de crête, elle offre une meilleure prévisibilité en général (contrairement à LASSO, je comprends, pas à la régression sans restriction). Peut-être que le général n'est pas si général dans son utilisation. De plus, combien d'interprétabilité les méthodes de régularisation sont-elles censées produire? (Aussi, Shmueli "Pour expliquer ou prédire" (2010) est une belle pièce, même si elle n'est pas directement liée.)
Richard Hardy
1
@RichardHardy, vous avez raison. Maintenant, j'ai lu le manuel plus attentivement et j'ai constaté que " ni la régression des crêtes ni le lasso ne domineront universellement l'autre " à la page 223, An Introduction to Statistical Learning with Applications in R , Gareth James et al
Brad Li
@RichardHardy, à l'origine, j'ai trouvé des arguments similaires pour la régularisation L1 sur la FAQ LIBLINEAR
Brad Li
Des pistes de crête et de Lasso sur un ou deux exemples réels clarifieraient-elles les différences? (Mais ils ne sont pas faciles à comparer - terrain ajustement par rapport à sparsity?)
denis

Réponses:

15
  1. Si vous commandez 1 million de fonctionnalités rétrécies, mises à l'échelle, mais non nulles, vous devrez prendre une sorte de décision: vous examinerez les n meilleurs prédicteurs, mais qu'est-ce que n ? Le LASSO résout ce problème d'une manière objective et de principe, car pour chaque étape sur le chemin (et souvent, vous vous installez sur un point via, par exemple, la validation croisée), il n'y a que m coefficients qui sont non nuls.

  2. Très souvent, vous formerez des modèles sur certaines données et les appliquerez ensuite à certaines données non encore collectées. Par exemple, vous pouvez adapter votre modèle à 50 000 000 e-mails, puis utiliser ce modèle à chaque nouvel e-mail. Certes, vous l'adapterez à l'ensemble des fonctionnalités des 50 000 000 premiers e-mails, mais pour chaque e-mail suivant, vous aurez affaire à un modèle beaucoup plus simple et plus rapide, et beaucoup plus efficace en mémoire. Vous n'aurez même pas besoin de collecter les informations pour les fonctionnalités supprimées, ce qui peut être extrêmement utile si les fonctionnalités sont coûteuses à extraire, par exemple via le génotypage.

Une autre perspective sur le problème L1 / L2 exposé par exemple par Andrew Gelman est que vous avez souvent une certaine intuition à quoi peut ressembler votre problème. Dans certaines circonstances, il est possible que la réalité soit vraiment clairsemée. Vous avez peut-être mesuré des millions de gènes, mais il est plausible que seulement 30 000 d'entre eux déterminent réellement le métabolisme de la dopamine. Dans une telle situation, L1 correspond sans doute mieux au problème.
Dans d'autres cas, la réalité peut être dense. Par exemple, en psychologie, "tout est en corrélation (dans une certaine mesure) avec tout" (Paul Meehl). Préférences pour les pommes contre des oranges probablement ne sont en corrélation avec les tendances politiques en quelque sorte - et même avec le QI. La régularisation pourrait encore avoir un sens ici, mais les vrais effets zéro devraient être rares, donc L2 pourrait être plus approprié.

jona
la source
y=-2X1+3X2-X3
X2>X1>X3[0,1]
Brad Li
Bien sûr, vous pouvez les trier, mais vous devrez toujours prendre une sorte de décision quant au sous-ensemble d'entre eux que vous regardez.
jona
6
Une autre façon de formuler cela serait: l'arête peut aider à la sélection des fonctionnalités, LASSO le fait .
jona
1
@Brad, en plus de l'excellente réponse de jona (+1), notez que juger de l'importance d'une caractéristique par son coefficient de régression standardisé est une approche possible, mais pas la seule; il existe différentes mesures d '«importance des caractéristiques» et elles peuvent facilement donner des résultats contradictoires. Voir ce fil pour une longue discussion: stats.stackexchange.com/questions/64010 .
amibe dit Réintégrer Monica
1

L'interprétabilité diminue si la cible dépend de nombreuses fonctionnalités. Il augmente si nous pouvons réduire le nombre de fonctionnalités et maintenir la précision. La régularisation des crêtes n'a pas la capacité de réduire le nombre d'entités. Mais Lasso a la capacité. Comment cela se produit est expliqué visuellement dans le lien suivant:

Cliquez sur l'article Vers la science des données

solver149
la source