approches de formation pour un ensemble de données très déséquilibré

16

J'ai un ensemble de données de test très déséquilibré. L'ensemble positif se compose de 100 cas tandis que l'ensemble négatif se compose de 1500 cas. Du côté de la formation, j'ai un plus grand bassin de candidats: l'ensemble de formation positive a 1 200 cas et l'ensemble de formation négative a 12 000 cas. Pour ce genre de scénario, j'ai plusieurs choix:

1) Utilisation de SVM pondéré pour l'ensemble de l'entraînement (P: 1200, N: 12000)

2) En utilisant SVM basé sur l'ensemble d'apprentissage échantillonné (P: 1200, N: 1200), les 1200 cas négatifs sont échantillonnés à partir de 12000 cas.

Existe-t-il des conseils théoriques pour décider quelle approche est la meilleure? Étant donné que l'ensemble de données de test est fortement déséquilibré, dois-je également utiliser l'ensemble d'entraînement déséquilibré?

bit-question
la source
1
veuillez vérifier les questions suivantes: apprentissage supervisé avec des événements «rares» et meilleure façon de gérer un ensemble de données multiclasses non équilibré avec SVM . Est-ce que cela aide ? Franchement, vos questions semblent assez similaires;).
steffen

Réponses:

0

Régression logistique étendue par paire, apprentissage basé sur ROC, boosting et ensachage (agrégation Bootstrap), ensemble de clusters basé sur les liens (LCE), réseau bayésien, classificateurs centroïdes les plus proches, techniques bayésiennes, ensemble approximatif pondéré, k-NN

et de nombreuses méthodes d'échantillonnage pour gérer le déséquilibre.

Vladimir Chupakhin
la source