J'ai utilisé la régression logistique. J'ai six fonctionnalités, je veux connaître les fonctionnalités importantes de ce classificateur qui influencent le résultat plus que d'autres fonctionnalités. J'ai utilisé Information Gain mais il semble que cela ne dépende pas du classificateur utilisé. Existe-t-il une méthode pour classer les entités en fonction de leur importance en fonction d'un classificateur spécifique (comme la régression logistique)? Toute aide serait très appréciée.
logistic
feature-selection
ranking
regression-strategies
Fille bleue
la source
la source
Réponses:
Je pense que la réponse que vous cherchez pourrait être l' algorithme de Boruta . Il s'agit d'une méthode d'encapsulation qui mesure directement l'importance des entités dans un sens "toute pertinence" et est implémentée dans un package R , qui produit de jolis tracés tels que où l'importance d'une entité est sur l'axe des y et est comparée à un null tracé en bleu ici. Ce billet de blog décrit l'approche et je vous recommande de le lire comme une introduction très claire.
la source
Une liste des approches populaires pour classer l'importance des caractéristiques dans les modèles de régression logistique est la suivante:
Références:
la source
En supposant que tous vos sont normalisés, par exemple en divisant par l'amplitude de , il est assez facile de voir quelles variables sont plus importantes: celles qui sont plus grandes que les autres ou (du côté négatif ) plus petit des autres. Ils influencent le plus la perte.x x
Si vous souhaitez trouver les variables qui sont vraiment importantes et que cela ne vous dérange pas d'en supprimer quelques-unes, vous pouvez régulariser votre fonction de perte:ℓ1
Les dérivés ou le régularisateur sont assez simples, donc je ne les mentionnerai pas ici. L'utilisation de cette forme de régularisation et d'un approprié les éléments les moins importants de à devenir nul et les autres non.λ w
J'espère que ça aide. Demandez si vous avez d'autres questions.
la source