Dans ma classe d'apprentissage automatique, nous avons appris comment la régression LASSO est très efficace pour effectuer la sélection de fonctionnalités, car elle utilise la régularisation .
Ma question: les gens utilisent-ils normalement le modèle LASSO uniquement pour faire la sélection des fonctionnalités (puis procèdent-ils au vidage de ces fonctionnalités dans un modèle d'apprentissage automatique différent), ou utilisent-ils généralement LASSO pour effectuer à la fois la sélection des fonctionnalités et la régression réelle?
Par exemple, supposons que vous souhaitiez effectuer une régression de crête, mais vous pensez que bon nombre de vos fonctionnalités ne sont pas très bonnes. Serait-il sage d'exécuter LASSO, de ne prendre que les fonctionnalités qui ne sont pas presque mises à zéro par l'algorithme, puis d'utiliser uniquement celles qui déposent vos données dans un modèle de régression de crête? De cette façon, vous bénéficiez de la régularisation pour effectuer la sélection des fonctionnalités, mais également de la régularisation pour réduire le sur-ajustement. (Je sais que cela revient essentiellement à la régression du filet élastique, mais il semble que vous n'ayez pas besoin d'avoir à la fois les termes et dans la fonction d'objectif de régression finale.)
Mis à part la régression, est-ce une stratégie judicieuse lors de l'exécution de tâches de classification (à l'aide de SVM, de réseaux de neurones, de forêts aléatoires, etc.)?
Réponses:
Presque toute approche qui fait une certaine forme de sélection de modèle et fait ensuite des analyses supplémentaires comme si aucune sélection de modèle n'avait eu lieu auparavant a généralement de mauvaises proportions. À moins qu'il n'y ait des arguments théoriques convaincants étayés par des preuves provenant, par exemple, d'études de simulation approfondies pour des tailles d'échantillon réalistes et des rapports caractéristiques / taille d'échantillon pour montrer qu'il s'agit d'une exception, il est probable qu'une telle approche aura des propriétés insatisfaisantes. Je ne suis au courant d'aucune preuve positive de cette approche, mais peut-être que quelqu'un d'autre l'est. Étant donné qu'il existe des alternatives raisonnables qui atteignent tous les objectifs souhaités (par exemple le filet élastique), il est difficile de justifier cette approche en utilisant une telle approche ad hoc suspecte à la place.
la source
Outre toutes les réponses ci-dessus: Il est possible de calculer un test de permutation chi2 exact pour les tables 2x2 et rxc. Au lieu de comparer notre valeur observée de la statistique du chi carré à une distribution du khi carré asymptotique, nous devons la comparer à la distribution de permutation exacte. Nous devons permuter nos données de toutes les manières possibles en maintenant les marges de ligne et de colonne constantes. Pour chaque ensemble de données permuté, nous avons calculé les statistiques chi2. Nous comparons ensuite notre chi2 observé avec les statistiques (triées) de chi2 Le classement de la statistique de test réelle parmi les statistiques de test de chi2 permutées donne une valeur de p.
la source