Si seule la prévision présente un intérêt, pourquoi utiliser le lasso sur la crête?

37

À la page 223 de l' Introduction à l'apprentissage statistique , les auteurs résument les différences entre la régression de la crête et le lasso. Ils fournissent un exemple (Figure 6.9) du cas où "le lasso tend à surpasser la régression de la crête en termes de biais, de variance et de MSE".

Je comprends pourquoi le lasso peut être souhaitable: il donne des solutions rares car il réduit beaucoup de coefficients à 0, ce qui donne des modèles simples et interprétables. Mais je ne comprends pas comment il peut surpasser les crêtes lorsque seules les prédictions présentent un intérêt (c.-à-d. Comment obtient-on une MSE nettement inférieure dans l'exemple?).

Avec Ridge, si de nombreux prédicteurs n’ont pratiquement aucun effet sur la réponse (quelques prédicteurs ayant un effet important), leurs coefficients ne seront-ils pas simplement réduits à un petit nombre très proche de zéro ... donnant ainsi un résultat très similaire à celui de lasso ? Alors, pourquoi le modèle final aurait-il une performance inférieure à celle du lasso?

Oliver Angelil
la source
2
J'ai vu ce lien. Cela ne répond pas à la question.
Oliver Angelil

Réponses:

34

Vous avez raison de poser cette question. En général, quand une règle de notation de précision correcte est utilisée (par exemple, erreur de prédiction quadratique moyenne), la régression de crête surperformera le lasso. Lasso dépense une partie de l’information pour essayer de trouver les "bons" prédicteurs et ce n’est même pas génial de le faire dans de nombreux cas. La performance relative des deux dépendra de la distribution des coefficients de régression réels. Si vous avez une petite fraction de coefficients non nuls, le lasso peut donner de meilleurs résultats. Personnellement, j'utilise crête presque tout le temps lorsque je m'intéresse à la précision prédictive.

Frank Harrell
la source
1
Existe-t-il des cas où la précision prédictive ne vous intéresse pas?
Walrus the Cat
1
@WalrustheCat Certaines personnes, généralement stéréotypées de Stanford, préconisent l'utilisation de Lasso dans la sélection de variables de grande dimension. Vraisemblablement, Frank voulait dire "... s'intéresse principalement à la précision prédictive" plutôt que simplement "... s'intéresse à la précision prédictive", bien que, à mon avis, la différence entre ces deux éléments soit deux pédants pour être utile.
John Madden
Je n'ai jamais compris l'approche "régularisation en tant que réduction de dimensionnalité". Vous pouvez effectuer une réduction de la dimensionnalité, par le biais d'une régularisation au lasso ou non, puis utiliser la fonction de régularisation la mieux adaptée à votre problème d'origine sur les fonctions résultantes. Mais je m'égare.
Walrus the Cat
9
Dans "En général, la [...] régression de crête surperformera le lasso" et "Si vous avez une petite fraction de coefficients non nuls, le lasso peut mieux fonctionner", il semble en résulter que, dans la plupart des problèmes de prédiction, la vérité au sol n'est pas rare. Est-ce que c'est ce que tu dis?
Amibe dit: Réintégrer Monica
5
Oui principalement. Si vous connaissez la vérité au sol "dans la distribution", vous créerez une distribution bayésienne antérieure pour les coefficients de régression inconnus qui vous permettrait d'obtenir des résultats optimaux. Et même lorsque, par exemple, les trois quarts des prédicteurs ont exactement un effet nul, la crête est compétitive avec le lasso.
Frank Harrell
11

Je pense que la configuration spécifique de l'exemple que vous citez est essentielle pour comprendre pourquoi le lasso surpasse l'arête: seuls 2 des 45 prédicteurs sont réellement pertinents.

Ceci est proche d’un cas pathologique: le lasso, destiné spécifiquement à faciliter les réductions à zéro, fonctionne exactement comme prévu, alors que Ridge devra faire face à un grand nombre de termes inutiles (même si leur effet est réduit à zéro, il reste effet non nul).

mbrig
la source