À la page 223 de l' Introduction à l'apprentissage statistique , les auteurs résument les différences entre la régression de la crête et le lasso. Ils fournissent un exemple (Figure 6.9) du cas où "le lasso tend à surpasser la régression de la crête en termes de biais, de variance et de MSE".
Je comprends pourquoi le lasso peut être souhaitable: il donne des solutions rares car il réduit beaucoup de coefficients à 0, ce qui donne des modèles simples et interprétables. Mais je ne comprends pas comment il peut surpasser les crêtes lorsque seules les prédictions présentent un intérêt (c.-à-d. Comment obtient-on une MSE nettement inférieure dans l'exemple?).
Avec Ridge, si de nombreux prédicteurs n’ont pratiquement aucun effet sur la réponse (quelques prédicteurs ayant un effet important), leurs coefficients ne seront-ils pas simplement réduits à un petit nombre très proche de zéro ... donnant ainsi un résultat très similaire à celui de lasso ? Alors, pourquoi le modèle final aurait-il une performance inférieure à celle du lasso?
la source
Réponses:
Vous avez raison de poser cette question. En général, quand une règle de notation de précision correcte est utilisée (par exemple, erreur de prédiction quadratique moyenne), la régression de crête surperformera le lasso. Lasso dépense une partie de l’information pour essayer de trouver les "bons" prédicteurs et ce n’est même pas génial de le faire dans de nombreux cas. La performance relative des deux dépendra de la distribution des coefficients de régression réels. Si vous avez une petite fraction de coefficients non nuls, le lasso peut donner de meilleurs résultats. Personnellement, j'utilise crête presque tout le temps lorsque je m'intéresse à la précision prédictive.
la source
Je pense que la configuration spécifique de l'exemple que vous citez est essentielle pour comprendre pourquoi le lasso surpasse l'arête: seuls 2 des 45 prédicteurs sont réellement pertinents.
Ceci est proche d’un cas pathologique: le lasso, destiné spécifiquement à faciliter les réductions à zéro, fonctionne exactement comme prévu, alors que Ridge devra faire face à un grand nombre de termes inutiles (même si leur effet est réduit à zéro, il reste effet non nul).
la source