Comment LASSO sélectionne-t-il parmi les prédicteurs colinéaires?

10

Je cherche une réponse intuitive pourquoi un modèle GLM LASSO sélectionne un prédicteur spécifique dans un groupe de facteurs hautement corrélés, et pourquoi il le fait différemment, puis la meilleure sélection de fonctionnalités de sous-ensemble.

D'après la géométrie du LASSO montrée sur la figure 2 dans Tibshirani 1996, je suis amené à croire que LASSO sélectionne le prédicteur avec la plus grande variance.

Supposons maintenant que j'utilise la meilleure sélection de sous-ensemble avec un CV 10 fois, pour obtenir 2 prédicteurs pour un modèle de régression logistique et que j'ai une connaissance préalable raisonnable que ces 2 prédicteurs sont optimaux (au sens de perte 0-1).

La solution LASSO privilégie une solution moins parcimonieuse (5 prédicteurs) avec une plus grande erreur de prédiction. Intuitivement, qu'est-ce qui provoque la différence? Est-ce à cause de la façon dont LASSO sélectionne parmi les prédicteurs corrélés?

Piotr Sokol
la source

Réponses:

5

LASSO diffère de la sélection du meilleur sous-ensemble en termes de pénalisation et de dépendance au chemin.

Dans la sélection du meilleur sous-ensemble, le CV a vraisemblablement été utilisé pour identifier que 2 prédicteurs donnaient les meilleures performances. Pendant le CV, des coefficients de régression de grande ampleur sans pénalisation auraient été utilisés pour évaluer le nombre de variables à inclure. Une fois la décision prise d'utiliser 2 prédicteurs, toutes les combinaisons de 2 prédicteurs seraient comparées sur l'ensemble complet de données, en parallèle, pour trouver les 2 pour le modèle final. Ces 2 prédicteurs finaux se verraient attribuer leurs coefficients de régression de pleine grandeur, sans pénalisation, comme s'ils avaient été les seuls choix depuis le début.

Vous pouvez penser à LASSO comme commençant par une pénalité importante sur la somme des amplitudes des coefficients de régression, la pénalité étant progressivement assouplie. Le résultat est que les variables entrent une à la fois, avec une décision prise à chaque point pendant la relaxation s'il est plus utile d'augmenter les coefficients des variables déjà dans le modèle, ou d'ajouter une autre variable. Mais lorsque vous obtenez, par exemple, un modèle à 2 variables, les coefficients de régression autorisés par LASSO seront inférieurs en amplitude à ceux que ces mêmes variables auraient dans les régressions non pénalisées standard utilisées pour comparer les modèles à 2 variables et à 3 variables dans sélection du meilleur sous-ensemble.

Cela peut être considéré comme facilitant l'entrée de nouvelles variables dans LASSO que dans la sélection du meilleur sous-ensemble. Heureusement, LASSO échange des coefficients de régression potentiellement inférieurs à la réalité contre l'incertitude quant au nombre de variables à inclure. Cela aurait tendance à inclure plus de variables dans un modèle LASSO, et des performances potentiellement pires pour LASSO si vous saviez avec certitude que seulement 2 variables devaient être incluses. Mais si vous saviez déjà combien de variables prédictives devraient être incluses dans le bon modèle, vous n'utiliseriez probablement pas LASSO.

Jusqu'à présent, rien n'a dépendu de la colinéarité, ce qui entraîne différents types d'arbitraire dans la sélection des variables dans le meilleur sous-ensemble par rapport à LASSO. Dans cet exemple, le meilleur sous-ensemble a examiné toutes les combinaisons possibles de 2 prédicteurs et a choisi la meilleure parmi ces combinaisons. Donc, les 2 meilleurs pour cet échantillon de données particulier gagnent.

LASSO, avec sa dépendance de chemin en ajoutant une variable à la fois, signifie qu'un choix précoce d'une variable peut influencer lorsque d'autres variables qui lui sont corrélées entrent plus tard dans le processus de relaxation. Il est également possible qu'une variable entre tôt, puis que son coefficient LASSO baisse à mesure que d'autres variables corrélées entrent.

En pratique, le choix parmi les prédicteurs corrélés dans les modèles finaux avec l'une ou l'autre méthode dépend fortement de l'échantillon, comme cela peut être vérifié en répétant ces processus de construction de modèle sur des échantillons bootstrap des mêmes données. S'il n'y a pas trop de prédicteurs et que votre principal intérêt est de prédire de nouveaux ensembles de données, la régression de crête, qui a tendance à conserver tous les prédicteurs, peut être un meilleur choix.

EdM
la source