La classification GBM souffre-t-elle de tailles de classe déséquilibrées?

16

J'ai affaire à un problème de classification binaire supervisé. Je voudrais utiliser le package GBM pour classer les individus comme non infectés / infectés. J'ai 15 fois plus de personnes non infectées que de personnes infectées.

Je me demandais si les modèles GBM souffraient en cas de tailles de classe déséquilibrées? Je n'ai trouvé aucune référence répondant à cette question.

J'ai essayé d'ajuster les poids en attribuant un poids de 1 aux individus non infectés et un poids de 15 aux personnes infectées, mais j'ai obtenu de mauvais résultats.

yo-yo
la source
1
(note latérale) Il serait utile de fournir ce que GBM signifie et un lien vers le package.
Memming
1
Quelle fonction de perte utilisez-vous pour votre modèle d'amplification de gradient? En ce qui concerne les classes déséquilibrées, j'ai constaté de mauvaises performances lorsque j'ai utilisé une erreur absolue moyenne, car elle semble favoriser la classe la plus courante. Quand j'ai utilisé l'erreur quadratique moyenne, les performances se sont améliorées considérablement
Ryan Zotti
Juste pour référence future, je trouve que la fonction de perte par défaut utilisée par la perte logarithmique au caret (déviation croisée) est également très utile. (cela pénalise fortement les mauvais cas dans une échelle logarithmique négative)
Lily Long

Réponses:

4

D'après mon expérience, GBM souffre en effet de tailles de classe déséquilibrées. J'ai eu beaucoup de succès en utilisant l'échantillonnage SMOTE, qui crée des données synthétiques tout en suréchantillonnant la classe minoritaire. Vous pouvez le trouver dans le DMwRpackage.

Trey
la source
Je suis un peu confus. Le GBM n'est-il pas censé être une approche pour gérer le déséquilibre des données? Découvrez ceci analyticsvidhya.com/blog/2017/03/…
Lamothy
5

Je pense que vos données sont similaires à celles de Secom sur lesquelles j'ai travaillé par le passé et j'ai rencontré beaucoup de difficultés. Voici ce que j'ai essayé:

  • Différentes techniques d'échantillonnage
  • Différents classificateurs comme Random Forest, ANN, GBM, méthodes Ensemble, etc.

J'ai également essayé SVM 1 classe qui a donné de meilleurs résultats par rapport à d'autres comme adaboost, Random Forest. Vous pouvez également essayer cela.

Et je peux voir que vous avez posé cette question il y a 1 an, donc si vous avez trouvé le meilleur moyen, veuillez l'afficher ici afin que je puisse obtenir de l'aide pour obtenir une meilleure précision.

Ankit
la source