Utilisation de LASSO uniquement pour la sélection des fonctionnalités

10

Dans ma classe d'apprentissage automatique, nous avons appris comment la régression LASSO est très efficace pour effectuer la sélection de fonctionnalités, car elle utilise la régularisation . $l_1$

Ma question: les gens utilisent-ils normalement le modèle LASSO uniquement pour faire la sélection des fonctionnalités (puis procèdent-ils au vidage de ces fonctionnalités dans un modèle d'apprentissage automatique différent), ou utilisent-ils généralement LASSO pour effectuer à la fois la sélection des fonctionnalités et la régression réelle?

Par exemple, supposons que vous souhaitiez effectuer une régression de crête, mais vous pensez que bon nombre de vos fonctionnalités ne sont pas très bonnes. Serait-il sage d'exécuter LASSO, de ne prendre que les fonctionnalités qui ne sont pas presque mises à zéro par l'algorithme, puis d'utiliser uniquement celles qui déposent vos données dans un modèle de régression de crête? De cette façon, vous bénéficiez de la régularisation pour effectuer la sélection des fonctionnalités, mais également de la régularisation pour réduire le sur-ajustement. (Je sais que cela revient essentiellement à la régression du filet élastique, mais il semble que vous n'ayez pas besoin d'avoir à la fois les termes et dans la fonction d'objectif de régression finale.) $l_1$ $l_2$ $l_1$ $l_2$

Mis à part la régression, est-ce une stratégie judicieuse lors de l'exécution de tâches de classification (à l'aide de SVM, de réseaux de neurones, de forêts aléatoires, etc.)?

feature-selection lasso regression-strategies Ryan
la source

1

Oui, l'utilisation du lasso pour la sélection de fonctionnalités pour d'autres modèles est une bonne idée. Alternativement, la sélection de fonctionnalités basée sur l'arborescence pourrait également être appliquée à d'autres modèles

karthikbharadwaj

1

Le lasso effectue uniquement la sélection des fonctionnalités dans les modèles linéaires - il ne teste pas les interactions d'ordre supérieur ou la non-linéarité dans les prédicteurs. Pour un exemple de la façon dont cela pourrait être important: stats.stackexchange.com/questions/164048/… Votre kilométrage peut varier.

Sycorax dit Réintégrer Monica

11

Presque toute approche qui fait une certaine forme de sélection de modèle et fait ensuite des analyses supplémentaires comme si aucune sélection de modèle n'avait eu lieu auparavant a généralement de mauvaises proportions. À moins qu'il n'y ait des arguments théoriques convaincants étayés par des preuves provenant, par exemple, d'études de simulation approfondies pour des tailles d'échantillon réalistes et des rapports caractéristiques / taille d'échantillon pour montrer qu'il s'agit d'une exception, il est probable qu'une telle approche aura des propriétés insatisfaisantes. Je ne suis au courant d'aucune preuve positive de cette approche, mais peut-être que quelqu'un d'autre l'est. Étant donné qu'il existe des alternatives raisonnables qui atteignent tous les objectifs souhaités (par exemple le filet élastique), il est difficile de justifier cette approche en utilisant une telle approche ad hoc suspecte à la place.

Björn
la source

3

d'accord .... le fait est que tout doit s'inscrire dans un cadre de validation croisée ... vous devez donc effectuer une validation croisée imbriquée pour effectuer les deux régularisations distinctes (sinon vous rencontrerez des problèmes), et la validation croisée imbriquée utilise moins de données pour chaque partie.

seanv507

1

Outre toutes les réponses ci-dessus: Il est possible de calculer un test de permutation chi2 exact pour les tables 2x2 et rxc. Au lieu de comparer notre valeur observée de la statistique du chi carré à une distribution du khi carré asymptotique, nous devons la comparer à la distribution de permutation exacte. Nous devons permuter nos données de toutes les manières possibles en maintenant les marges de ligne et de colonne constantes. Pour chaque ensemble de données permuté, nous avons calculé les statistiques chi2. Nous comparons ensuite notre chi2 observé avec les statistiques (triées) de chi2 Le classement de la statistique de test réelle parmi les statistiques de test de chi2 permutées donne une valeur de p.

Stats_Monkey
la source

Pourriez-vous ajouter des détails à votre réponse, s'il vous plaît? Dans sa forme actuelle, on ne sait pas exactement comment calculer le test chi2 exact.

Antoine Vernet

Utilisation de LASSO uniquement pour la sélection des fonctionnalités

Réponses: