Quelle est la meilleure façon de catégoriser les approches qui ont été développées pour traiter le problème de classe de déséquilibre?
Cet article les classe en:
- Prétraitement: comprend le suréchantillonnage, le sous-échantillonnage et les méthodes hybrides,
- Apprentissage sensible aux coûts: comprend les méthodes directes et le méta-apprentissage que celui-ci divise en outre en seuillage et échantillonnage,
- Techniques d'ensemble: comprend les ensembles sensibles au coût et le prétraitement des données en conjonction avec l'apprentissage d'ensemble.
Le deuxième classement:
- Pré-traitement des données: inclut le changement de distribution et la pondération de l'espace de données. L'apprentissage en classe est considéré comme un changement de distribution.
- Méthodes d'apprentissage spécialisées
- Post-traitement de prédiction: comprend une méthode de seuil et un post-traitement sensible aux coûts
- Méthodes hybrides:
Le troisième article :
- Méthodes au niveau des données
- Méthodes au niveau de l'algorithme
- Méthodes hybrides
La dernière classification considère également l'ajustement de la production comme une approche indépendante.
Merci d'avance.
Réponses:
À mon avis, les trois catégorisations s'accordent à bien des égards. Par exemple, les trois ont une catégorie pour les étapes de prétraitement.
J'aurais tendance à être principalement d'accord sur la troisième catégorisation car elle est plus générique et englobe plus de choses.
La seule chose qui manque dans les deux premiers articles sont les étapes de post-traitement qui, pour être honnête, ne sont pas utilisées dans la pratique aussi souvent que l'autre.
la source