J'ai affaire à un problème de classification binaire supervisé. Je voudrais utiliser le package GBM pour classer les individus comme non infectés / infectés. J'ai 15 fois plus de personnes non infectées que de personnes infectées.
Je me demandais si les modèles GBM souffraient en cas de tailles de classe déséquilibrées? Je n'ai trouvé aucune référence répondant à cette question.
J'ai essayé d'ajuster les poids en attribuant un poids de 1 aux individus non infectés et un poids de 15 aux personnes infectées, mais j'ai obtenu de mauvais résultats.
Réponses:
D'après mon expérience, GBM souffre en effet de tailles de classe déséquilibrées. J'ai eu beaucoup de succès en utilisant l'échantillonnage SMOTE, qui crée des données synthétiques tout en suréchantillonnant la classe minoritaire. Vous pouvez le trouver dans le
DMwR
package.la source
Je pense que vos données sont similaires à celles de Secom sur lesquelles j'ai travaillé par le passé et j'ai rencontré beaucoup de difficultés. Voici ce que j'ai essayé:
J'ai également essayé SVM 1 classe qui a donné de meilleurs résultats par rapport à d'autres comme adaboost, Random Forest. Vous pouvez également essayer cela.
Et je peux voir que vous avez posé cette question il y a 1 an, donc si vous avez trouvé le meilleur moyen, veuillez l'afficher ici afin que je puisse obtenir de l'aide pour obtenir une meilleure précision.
la source