J'ai un ensemble de données de test très déséquilibré. L'ensemble positif se compose de 100 cas tandis que l'ensemble négatif se compose de 1500 cas. Du côté de la formation, j'ai un plus grand bassin de candidats: l'ensemble de formation positive a 1 200 cas et l'ensemble de formation négative a 12 000 cas. Pour ce genre de scénario, j'ai plusieurs choix:
1) Utilisation de SVM pondéré pour l'ensemble de l'entraînement (P: 1200, N: 12000)
2) En utilisant SVM basé sur l'ensemble d'apprentissage échantillonné (P: 1200, N: 1200), les 1200 cas négatifs sont échantillonnés à partir de 12000 cas.
Existe-t-il des conseils théoriques pour décider quelle approche est la meilleure? Étant donné que l'ensemble de données de test est fortement déséquilibré, dois-je également utiliser l'ensemble d'entraînement déséquilibré?
la source
Réponses:
D'un post récent sur reddit, la réponse de datapraxis sera intéressante.
modifier: l'article mentionné est Haibo He, Edwardo A. Garcia, «Learning from Imbalanced Data», IEEE Transactions on Knowledge and Data Engineering, pp. 1263-1284, septembre 2009 (PDF)
la source
Régression logistique étendue par paire, apprentissage basé sur ROC, boosting et ensachage (agrégation Bootstrap), ensemble de clusters basé sur les liens (LCE), réseau bayésien, classificateurs centroïdes les plus proches, techniques bayésiennes, ensemble approximatif pondéré, k-NN
et de nombreuses méthodes d'échantillonnage pour gérer le déséquilibre.
la source