L'amplification du gradient est-elle appropriée pour les données avec de faibles taux d'événements comme 1%?

14

J'essaie d'augmenter le gradient sur un ensemble de données avec un taux d'événements d'environ 1% en utilisant Enterprise Miner, mais il ne parvient à produire aucune sortie. Ma question est, puisqu'il s'agit d'une approche basée sur un arbre de décision, est-il même juste d'utiliser l'augmentation de gradient avec un événement aussi faible?

user2542275
la source
3
Vous avez affaire à un ensemble de données déséquilibré. Le boost est en effet un bon moyen d'y faire face. Pour plus de détails, voir stats.stackexchange.com/questions/157940/…
DaL
Mais pour moi, la régression logistique donne de meilleurs résultats que l'augmentation aléatoire de la forêt ou du gradient. Je voulais améliorer les performances de mon modèle, en essayant les arbres boostés.
user2542275
Le boosting est basé sur des classificateurs faibles. Théoriquement, tout classificateur faible légèrement meilleur que aléatoire fera l'affaire. Dans la pratique, différents algorithmes conviennent mieux à certains ensembles de données, de sorte que le classificateur faible que vous choisissez est important. Pouvez-vous préciser davantage les algorithmes que vous avez utilisés, leurs résultats et l'ensemble de données?
DaL
D'accord. À propos de l'ensemble de données: taille de l'échantillon> 4 m, taux d'événements = 1,2%. Le nombre de prédicteurs qui ont une valeur p significative <0,05 est de 150. La régression logistique avec les variables les plus significatives a donné une élévation de 3 à 20% de la population. Le réseau neuronal a donné une levée d'environ 2,8. L'amplification du gradient n'a produit aucun résultat, jusqu'à ce que j'utilise un échantillonnage stratifié avec des poids antérieurs inverses. Mais les performances sont médiocres.
user2542275
Étant donné que votre ensemble de données est assez volumineux, vous devriez avoir suffisamment d'échantillons de votre classe minoritaire, donc le problème est dû au déséquilibre relatif. Vous avez pas mal de fonctionnalités mais pas trop, mais en effet les arbres de décision sont moins adaptés à de tels ensembles de données. Je vous suggère de créer un ensemble de données équilibré et de voir à quel point vos algorithmes fonctionnent bien. Ensuite, vous pourrez appliquer l'algorithme sur l'ensemble de données d'origine comme je l'ai décrit dans le premier commentaire.
DaL

Réponses:

7

(Pour donner une réponse courte à cela :)

Il est judicieux d'utiliser un algorithme de machine augmentant le gradient lorsqu'il s'agit d'un ensemble de données déséquilibré. Lorsqu'il s'agit d'un ensemble de données fortement déséquilibré, il est beaucoup plus pertinent de s'interroger sur la pertinence de la métrique utilisée. Nous devrions potentiellement éviter les métriques, comme la précision ou le rappel, qui sont basées sur des seuils arbitraires, et opter pour des métriques, comme l'ASCPR ou la notation Brier, qui donnent une image plus précise - voir l'excellent fil de discussion CV.SE sur: Pourquoi la précision n'est-elle pas la meilleure mesure pour évaluer les modèles de classification? pour plus). De même, nous pourrions potentiellement utiliser une approche sensible aux coûts en attribuant différents coûts de mauvaise classification (par exemple, voir Masnadi-Shirazi et Vasconcelos (2011) Cost-Sensitive Boostingpour une vue générale et les changements proposés aux algorithmes de boosting connus ou pour une application intéressante particulière avec une approche plus simple, consultez le rapport de défi Higgs Boson pour l'algorithme XGBoost; Chen & He (2015) Higgs Boson Discovery with Boosted Trees fournissent plus de détails).

Il convient également de noter que si nous utilisons un classificateur probabiliste (comme les GBM), nous pouvons / devrions activement étudier le calibrage des probabilités retournées (par exemple, voir Zadrozny et Elkan (2002) Transformer les scores du classificateur en estimations de probabilité multiclasses précises ou Kull et al. ( 2017) Étalonnage bêta: une amélioration bien fondée et facilement mise en œuvre de l'étalonnage logistique pour les classificateurs binaires ) pour potentiellement augmenter les performances de notre apprenant. Surtout lorsque vous travaillez avec des données déséquilibrées, la capture adéquate des changements de tendance peut être plus informative que le simple étiquetage des données. Dans cette mesure, certains pourraient affirmer que les approches sensibles aux coûts ne sont finalement pas aussi bénéfiques (par exemple, voir Nikolaou et al. (2016)Algorithmes de boosting sensibles aux coûts: en avons-nous vraiment besoin? ). Pour réitérer le point d'origine, les algorithmes de renforcement ne sont pas intrinsèquement mauvais pour les données déséquilibrées et dans certains cas, ils peuvent offrir une option très compétitive.

usεr11852
la source
Je crois que la notation Brier est équivalente à la mesure de précision et aura donc les mêmes limites que la précision lors de l'évaluation des modèles d'événements rares.
RobertF
Le score Brier n'est pas équivalent à la précision. Veuillez noter que nous utilisons la probabilité prédite pour le calcul du score de Brier tandis que pour le calcul de la précision, nous utilisons des étiquettes basées sur un seuillage rigoureux des probabilités prédites.
usεr11852
Merci d'avoir clarifié - utiliser la probabilité estimée plutôt que 0/1 pour la classe prédite est plus logique.
RobertF
Cool. Je suis content que nous ayons réglé cela! :)
usεr11852