J'essaie d'augmenter le gradient sur un ensemble de données avec un taux d'événements d'environ 1% en utilisant Enterprise Miner, mais il ne parvient à produire aucune sortie. Ma question est, puisqu'il s'agit d'une approche basée sur un arbre de décision, est-il même juste d'utiliser l'augmentation de gradient avec un événement aussi faible?
boosting
unbalanced-classes
rare-events
gradient
user2542275
la source
la source
Réponses:
(Pour donner une réponse courte à cela :)
Il est judicieux d'utiliser un algorithme de machine augmentant le gradient lorsqu'il s'agit d'un ensemble de données déséquilibré. Lorsqu'il s'agit d'un ensemble de données fortement déséquilibré, il est beaucoup plus pertinent de s'interroger sur la pertinence de la métrique utilisée. Nous devrions potentiellement éviter les métriques, comme la précision ou le rappel, qui sont basées sur des seuils arbitraires, et opter pour des métriques, comme l'ASCPR ou la notation Brier, qui donnent une image plus précise - voir l'excellent fil de discussion CV.SE sur: Pourquoi la précision n'est-elle pas la meilleure mesure pour évaluer les modèles de classification? pour plus). De même, nous pourrions potentiellement utiliser une approche sensible aux coûts en attribuant différents coûts de mauvaise classification (par exemple, voir Masnadi-Shirazi et Vasconcelos (2011) Cost-Sensitive Boostingpour une vue générale et les changements proposés aux algorithmes de boosting connus ou pour une application intéressante particulière avec une approche plus simple, consultez le rapport de défi Higgs Boson pour l'algorithme XGBoost; Chen & He (2015) Higgs Boson Discovery with Boosted Trees fournissent plus de détails).
Il convient également de noter que si nous utilisons un classificateur probabiliste (comme les GBM), nous pouvons / devrions activement étudier le calibrage des probabilités retournées (par exemple, voir Zadrozny et Elkan (2002) Transformer les scores du classificateur en estimations de probabilité multiclasses précises ou Kull et al. ( 2017) Étalonnage bêta: une amélioration bien fondée et facilement mise en œuvre de l'étalonnage logistique pour les classificateurs binaires ) pour potentiellement augmenter les performances de notre apprenant. Surtout lorsque vous travaillez avec des données déséquilibrées, la capture adéquate des changements de tendance peut être plus informative que le simple étiquetage des données. Dans cette mesure, certains pourraient affirmer que les approches sensibles aux coûts ne sont finalement pas aussi bénéfiques (par exemple, voir Nikolaou et al. (2016)Algorithmes de boosting sensibles aux coûts: en avons-nous vraiment besoin? ). Pour réitérer le point d'origine, les algorithmes de renforcement ne sont pas intrinsèquement mauvais pour les données déséquilibrées et dans certains cas, ils peuvent offrir une option très compétitive.
la source