Pour la régression Lasso supposons que la meilleure solution (erreur de test minimale par exemple) sélectionne k fonctionnalités, de sorte que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ droite) .
Nous savons que est un estimation biaisée de , alors pourquoi prenons-nous toujours comme solution finale, au lieu de la plus 'raisonnable' , où est l'estimation LS du modèle partiel . ( désigne les colonnes de correspondant aux entités sélectionnées).
En bref, pourquoi utilisons-nous le Lasso à la fois pour la sélection d'entités et pour l'estimation de paramètres, au lieu de seulement pour la sélection de variables (et en laissant l'estimation sur les entités sélectionnées à OLS)?
(En outre, qu'est-ce que cela signifie que «Lasso peut sélectionner au plus fonctionnalités»? est la taille de l'échantillon.)
la source
Réponses:
Je ne crois pas qu'il y ait quelque chose de mal à utiliser LASSO pour la sélection de variables, puis à utiliser OLS. Extrait de " Elements of Statistical Learning " (p. 91)
Une autre approche raisonnable, similaire dans son esprit au lasso détendu, consisterait à utiliser le lasso une fois (ou plusieurs fois en tandem) pour identifier un groupe de variables prédictives candidates. Ensuite, utilisez la régression des meilleurs sous-ensembles pour sélectionner les meilleures variables prédictives à considérer (voir également «Éléments d'apprentissage statistique» pour cela). Pour que cela fonctionne, vous devez affiner le groupe de prédicteurs candidats à environ 35, ce qui ne sera pas toujours possible. Vous pouvez utiliser la validation croisée ou AIC comme critère pour éviter un sur-ajustement.
la source
Si votre objectif est une performance optimale dans l'échantillon (par rapport au R au carré le plus élevé), utilisez simplement OLS sur chaque variable disponible. La suppression de variables diminuera le R au carré.
Si votre objectif est d'obtenir de bonnes performances hors échantillon (ce qui est généralement ce qui est beaucoup plus important), votre stratégie proposée souffrira de deux sources de sur-ajustement:
Le but de LASSO est de réduire les estimations des paramètres à zéro afin de combattre au-dessus de deux sources de sur-ajustement. Les prédictions dans l'échantillon seront toujours pires que l'OLS, mais l'espoir est (selon la force de la pénalisation) d'obtenir un comportement hors échantillon plus réaliste.
Concernant : Cela dépend (probablement) de l'implémentation de LASSO que vous utilisez. Une variante, Lars (régression du moindre angle), fonctionne facilement pour .p > np > n p > n
la source
Concernant la question des OP sur la raison pour laquelle Lasso peut sélectionner au plus n fonctionnalités:
Le lasso est obligé de réduire les coefficients des variables pour que cela ne se produise pas, il ne sélectionne donc jamais plus de n entités de sorte que est toujours inversible.XTX
la source