J'ai un problème de classification avec environ 1000 échantillons positifs et 10000 négatifs dans l'ensemble de formation. Cet ensemble de données est donc assez déséquilibré. La forêt aléatoire simple tente simplement de marquer tous les échantillons de test comme une classe majoritaire.
Voici quelques bonnes réponses sur le sous-échantillonnage et la forêt aléatoire pondérée: quelles sont les implications pour la formation d'un ensemble d'arbres avec des ensembles de données fortement biaisés?
Quelles méthodes de classification en plus de RF peuvent gérer le problème de la meilleure façon?
Réponses:
la source
Le sous-échantillonnage de la classe majoritaire est généralement la voie à suivre dans de telles situations.
Si vous pensez que vous avez trop peu d'instances de la classe positive, vous pouvez effectuer un suréchantillonnage, par exemple, échantillonner 5n instances avec remplacement à partir de l'ensemble de données de taille n.
Mises en garde:
la source
L'amplification du dégradé est également un bon choix ici. Vous pouvez utiliser le classificateur de renforcement de gradient dans sci-kit learn par exemple. L'amplification du gradient est une méthode de principe pour traiter le déséquilibre de classe en construisant des ensembles d'entraînement successifs basés sur des exemples mal classés.
la source
En plus des réponses affichées ici, si le nombre d'exemples positifs est beaucoup trop faible par rapport aux exemples négatifs, cela se rapproche d'un problème de détection d'anomalies où les exemples positifs sont les anomalies.
Vous disposez de toute une gamme de méthodes pour détecter les anomalies allant de l'utilisation de la distribution gaussienne multivariée pour modéliser tous les points, puis choisir ceux qui sont à 2 ou 3 stds de la moyenne.
Une autre matière à réflexion - j'ai vu pas mal de gens qui échantillonnent au hasard les exemples négatifs avec plus d'exemples afin que les deux classes soient les mêmes en nombre. Cela dépend totalement du problème en cause, que nous voulions qu'ils soient équilibrés ou non.
la source