La forêt aléatoire est-elle une bonne option pour la classification des données déséquilibrées? [fermé]

9

Malgré les approches ressemblantes et d'autres augmentations de la variabilité des données, la forêt aléatoire "en tant qu'algorithme" peut-elle être considérée comme une bonne option pour la classification des données déséquilibrées?

mhdella
la source
Non . (Veuillez être plus précis dans votre question, car elle est trop large. Vous devez clarifier votre situation ainsi que ce que vous entendez par la déclaration "en tant
qu'algorithme
5
@ usεr11852 Je ne pense pas que ce soit trop large du tout - il a juste une réponse en un mot.
shadowtalker
Ce que je voulais dire en tant qu'algorithme est comparé à d'autres outils de classification tels que SVM, régression logistique, .... les RF sont-ils considérés comme une bonne option?
mhdella
Pourquoi ne pas modifier votre question pour montrer dans quels comparateurs vous envisagez et dans quelle situation vous envisagez d'utiliser la méthode que vous avez choisie?
mdewey
@ssdecontrol: Je suis pour les réponses succinctes; J'ai rarement trouvé que les réponses d'un mot étaient très instructives. Votre propre réponse en est une preuve (car elle n'est pas composée d'un seul mot: D).
usεr11852

Réponses:

9

Ce n'est pas une bonne option.

Les forêts aléatoires sont construites sur des arbres de décision et les arbres de décision sont sensibles au déséquilibre des classes . Chaque arbre est construit sur un sac, et chaque sac est un échantillon aléatoire uniforme à partir des données (avec remplacement). Par conséquent, chaque arbre sera biaisé dans la même direction et la même ampleur (en moyenne) par déséquilibre de classe.

Il existe plusieurs techniques pour réduire ou atténuer le déséquilibre des classes, dont certaines sont générales et d'autres spécifiques aux forêts aléatoires. Ce sujet a été longuement discuté ici et ailleurs.

edit: J'ajouterais que je ne pense pas que ce soit dramatiquement pire que toute autre option, par exemple la régression logistique, bien que je n'en ai aucune preuve

shadowtalker
la source
augmentez la taille des échantillons de bootstrap .. de manière à obtenir à la fois la classe dans chaque échantillon.
Arpit Sisodia
@ArpitSisodia qui entraînera toujours des échantillons déséquilibrés. Vous devez utiliser des poids d'échantillonnage pour suréchantillonner la classe la plus rare dans chaque échantillon d'amorçage avant de construire l'arborescence.
shadowtalker
1
Cette réponse d'opinion est trompeuse dans la mesure où la forêt aléatoire est une excellente option, d'autant plus qu'une RF peut facilement être pondérée par classe. Veuillez suivre la meilleure pratique utile consistant à fournir une contre-proposition lorsque vous dites non, sinon dire non est plus nocif qu'utile.
SwimBikeRun
3

Les classes déséquilibrées ne sont un problème que si vous avez également un déséquilibre des coûts de mauvaise classification. S'il existe de petites classes minoritaires et qu'il n'est pas plus coûteux de les classer en classe majoritaire que l'inverse, alors la chose rationnelle à faire est de permettre une mauvaise classification des classes minoritaires.

Supposons donc que vous ayez un déséquilibre de classe et de coût. Il existe plusieurs façons de gérer cela. Le livre de Max Kuhn "Modélisation prédictive appliquée" a une bonne vue d'ensemble au chapitre 16. Ces remèdes incluent l'utilisation d'un seuil autre que 0,5 qui reflète les coûts inégaux. Ceci est facile à faire dans la classification binaire tant que votre classificateur génère des probabilités d'étiquette (les arbres et les forêts le font). Je ne l'ai pas encore étudié pour plusieurs classes. Vous pouvez également suréchantillonner la classe minoritaire pour lui donner plus de poids.

David Ernst
la source
Je ne pense pas que ce soit correct. Si j'ai un coût de classification erroné égal mais que mon modèle est biaisé pour surestimer une classe, il me reste un modèle biaisé à la fin de la journée.
shadowtalker
Cela n'aurait pas d'importance cependant. Les cas de cancer sont beaucoup moins nombreux que les patients en bonne santé. Pourtant, vous devez prédire de manière fiable les patients cancéreux car en manquer un est beaucoup plus cher que d'en prédire un de trop. Si vous aviez un ensemble de données avec 99,9% de personnes en bonne santé et 0,1% de cas de rhume courants, le meilleur classificateur ignorerait simplement ces cas de rhume courants.
David Ernst