LASSO / LARS vs méthode générale à spécifique (GETS)

Je me demandais pourquoi les méthodes de sélection des modèles LASSO et LARS sont si populaires même si elles ne sont fondamentalement que des variations de la sélection pas à pas (et souffrent donc de la dépendance du chemin)?

De même, pourquoi les méthodes GETS (General to Specific) pour la sélection des modèles sont-elles le plus souvent ignorées, même si elles font mieux que LARS / LASSO parce qu'elles ne souffrent pas du problème de régression pas à pas? (référence de base pour le SEAOG: http://www.federationreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - le nouvel algorithme commence par une recherche de modèle et d'arborescence large qui évite la dépendance du chemin et a font souvent mieux que LASSO / LARS).

Cela semble juste étrange, LARS / LASSO semblent obtenir beaucoup plus d'exposition et de citations que General to Specific (GETS), quelqu'un a-t-il des pensées?

N'essayant pas d'entamer un débat houleux, recherchant plutôt une explication rationnelle pour laquelle la littérature semble se concentrer sur LASSO / LARS plutôt que sur le GETS et peu de gens soulignent en fait les lacunes de LASSO / LARS.

feature-selection model-selection lasso stepwise-regression lars tortilla
la source

Que voulez-vous dire par chemin dépendant ici? De plus, y a-t-il une référence plus fiable que vous pouvez donner pour le SEAOG? Je ne connais pas cela.

cardinal

Voici une meilleure référence, plus "faisant autorité" qui mentionne également Lasso: degruyter.com/view/j/jtse.2011.3.1/jtse.2011.3.1.1097/… .

tortilla

J'allais également ajouter ce que je voulais dire: vous ajoutez donc des régresseurs significatifs un par un, mais cette approche ne vous permet pas d'en supprimer un si, sur la base de la corrélation entre les régresseurs, on peut devenir insignifiant. Ainsi, une fois ajouté, il y a une dépendance de chemin que ce régresseur est maintenant défini et ne peut pas être supprimé. N'est-ce pas le cas?

tortilla

Il est possible que des variables soient abandonnées à mi-chemin par le lasso si son chemin de coefficient croise zéro en cours de route. Connaissez-vous Efron et al. article original sur LARS? Cela explique cela en détail avec une belle saveur géométrique.

Cardinal

Je pense que le Lasso est populaire car il retransmet efficacement le problème de sélection du modèle de l'un des tests d'hypothèse à celui de l'estimation des paramètres.

Probabilogic

Réponses:

Avis de non-responsabilité: Je ne connais que de loin le travail sur la sélection de modèles de David F. Hendry, entre autres. Cependant, je sais par des collègues respectés qu'Hendry a fait des progrès très intéressants sur les problèmes de sélection des modèles en économétrie. Juger si la littérature statistique n'accorde pas suffisamment d'attention à son travail sur la sélection des modèles demanderait beaucoup plus de travail pour ma part.

Il est cependant intéressant d'essayer de comprendre pourquoi une méthode ou une idée génère beaucoup plus d'activité que d'autres. Nul doute qu'il y a aussi des aspects de la mode dans la science. Selon moi, le lasso (et ses amis) a un avantage majeur d'être la solution d'un problème d'optimisation très facilement exprimé. C'est la clé de la compréhension théorique détaillée de la solution et des algorithmes efficaces développés. Le livre récent, Statistics for High-Dimensional Data de Bühlmann et Van De Geer, illustre ce que l'on sait déjà du lasso.

Vous pouvez faire des études de simulation sans fin et vous pouvez, bien sûr, appliquer les méthodes que vous trouvez les plus pertinentes et adaptées à une application particulière, mais pour des parties de la littérature statistique, des résultats théoriques substantiels doivent également être obtenus. Le fait que le lasso a généré beaucoup d'activité montre qu'il existe des questions théoriques qui peuvent être réellement abordées et qu'elles ont des solutions intéressantes.

Un autre point est que Lasso ou variations n'effectuer bien dans de nombreux cas. Je ne suis tout simplement pas convaincu qu'il soit exact que le lasso soit si facilement surpassé par d'autres méthodes que le PO le suggère. Peut-être en termes de sélection de modèles (artificiels) mais pas en termes de performances prédictives. Aucune des références mentionnées ne semble vraiment comparer Gets et lasso non plus.

NRH
la source

pourquoi les méthodes de sélection des modèles LASSO et LARS sont-elles si populaires même si elles ne sont fondamentalement que des variations de la sélection avancée pas à pas

Il existe une différence entre la sélection de sous-ensemble LASSO et (GETS): LASSO réduit les coefficients vers zéro de manière dépendante des données, contrairement à la sélection de sous-ensemble (GETS). Cela semble être un avantage de la sélection du sous-ensemble LASSO par rapport à (GETS), même si cela peut parfois échouer (il nécessite un réglage des paramètres, qui est normalement effectué via une validation croisée, et parfois nous pouvons arriver à un mauvais réglage).

(GETS) les méthodes <...> font mieux que LARS / LASSO

La performance du GETS semble être de qualité comparable à LASSO lorsqu'elle est effectuée par des chercheurs impartiaux (?) (Mais pas nécessairement dans les articles où une nouvelle version du GETS est proposée - mais c'est ce à quoi vous vous attendez); voir quelques références dans ce fil .

Peut-être que Sir Hendry & Co obtient de bons résultats en utilisant le SEAOG en raison des spécificités de leurs applications (principalement la modélisation de séries chronologiques macroéconomiques)? Mais pourquoi est-ce possible? Ceci est une question distincte .

Richard Hardy
la source