Je travaille sur des données gravement déséquilibrées. Dans la littérature, plusieurs méthodes sont utilisées pour rééquilibrer les données en utilisant un rééchantillonnage (sur ou sous-échantillonnage). Deux bonnes approches sont:
SMOTE: TEchnique de suréchantillonnage des minorités synthétiques ( SMOTE )
ADASYN: Approche d'échantillonnage synthétique adaptative pour l'apprentissage déséquilibré ( ADASYN )
J'ai implémenté ADASYN parce que sa nature adaptative et sa facilité d'extension à des problèmes multi-classes.
Ma question est de savoir comment tester les données suréchantillonnées produites par ADASYN (ou toute autre méthode de suréchantillonnage). Il n'est pas clair dans les deux articles mentionnés comment ils ont effectué leurs expériences. Il existe deux scénarios:
1- Suréchantillonner l'ensemble de données, puis le diviser en ensembles d'apprentissage et de test (ou validation croisée).
2- Après avoir fractionné l'ensemble de données d'origine, effectuez un suréchantillonnage sur l'ensemble d'apprentissage uniquement et testez sur l'ensemble de test de données d'origine (peut être effectué avec validation croisée).
Dans le premier cas, les résultats sont bien meilleurs que sans suréchantillonnage, mais je m'inquiète s'il y a sur-ajustement. Alors que dans le deuxième cas, les résultats sont légèrement meilleurs que sans suréchantillonnage et bien pire que dans le premier cas. Mais le problème avec le deuxième cas est que si tous les échantillons de classe minoritaire sont envoyés à l'ensemble de test, alors aucun avantage ne sera obtenu avec un suréchantillonnage.
Je ne sais pas s'il existe d'autres paramètres pour tester ces données.
La deuxième (2) option est la bonne façon de procéder. Les échantillons synthétiques que vous créez avec les techniques de suréchantillonnage ne sont pas de vrais exemples mais plutôt synthétiques. Ceux-ci ne sont pas valables à des fins de test alors qu'ils sont toujours corrects pour la formation. Ils sont destinés à modifier le comportement du classifieur sans modifier l'algorithme.
la source