Quelle est votre opinion sur le suréchantillonnage dans la classification en général, et l'algorithme SMOTE en particulier? Pourquoi n'appliquerions-nous pas simplement un coût / une pénalité pour corriger le déséquilibre des données de classe et tout coût déséquilibré des erreurs? Pour mes besoins, l'exactitude de la prédiction d'un futur ensemble d'unités expérimentales est la mesure ultime.
Pour référence, l'article SMOTE: http://www.jair.org/papers/paper953.html
machine-learning
classification
oversampling
Dave Cummins
la source
la source
Réponses:
{1} donne une liste des avantages et des inconvénients de l'apprentissage sensible aux coûts par rapport à l'échantillonnage:
Ils ont également fait une série d'expériences, qui n'a pas été concluante:
Ils essaient ensuite de comprendre quels critères des ensembles de données peuvent indiquer quelle technique est la mieux adaptée.
Ils remarquent également que SMOTE peut apporter des améliorations:
{1} Weiss, Gary M., Kate McCarthy et Bibi Zabar. "Apprentissage sensible aux coûts vs échantillonnage: Quel est le meilleur pour gérer des classes déséquilibrées avec des coûts d'erreur inégaux?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf
la source