Catégorisation des approches pour faire face aux classes déséquilibrées

8

Quelle est la meilleure façon de catégoriser les approches qui ont été développées pour traiter le problème de classe de déséquilibre?

Cet article les classe en:

  1. Prétraitement: comprend le suréchantillonnage, le sous-échantillonnage et les méthodes hybrides,
  2. Apprentissage sensible aux coûts: comprend les méthodes directes et le méta-apprentissage que celui-ci divise en outre en seuillage et échantillonnage,
  3. Techniques d'ensemble: comprend les ensembles sensibles au coût et le prétraitement des données en conjonction avec l'apprentissage d'ensemble.

Le deuxième classement:

  1. Pré-traitement des données: inclut le changement de distribution et la pondération de l'espace de données. L'apprentissage en classe est considéré comme un changement de distribution.
  2. Méthodes d'apprentissage spécialisées
  3. Post-traitement de prédiction: comprend une méthode de seuil et un post-traitement sensible aux coûts
  4. Méthodes hybrides:

Le troisième article :

  1. Méthodes au niveau des données
  2. Méthodes au niveau de l'algorithme
  3. Méthodes hybrides

La dernière classification considère également l'ajustement de la production comme une approche indépendante.

Merci d'avance.

Ebrahimi
la source
4
La réponse très courte: tous sont les meilleurs et tous les pires! La classification et l'exploration de données en général sont très sensibles au contexte. Il n'y a pas de solution unique dans ce domaine. Soit dit en passant, la meilleure approche, en termes très génériques, est généralement une combinaison des meilleures décisions à différents niveaux, de l'extraction des caractéristiques au schéma d'évaluation.
mok
@mok Merci. Pourriez-vous s'il vous plaît me faire connaître le poids de la classe dans les classificateurs de sklearn, par exemple, la régression logistique est classée dans quelle catégorie?
ebrahimi
@ebrahimi, il devrait tomber au niveau de l'algorithme car seuls les poids sont ajustés selon un dictionnaire passé ou calculés (déduits) selon les valeurs de y (classe) et les données restent intactes.
Sanjay Krishna
@SanjayKrishna Merci beaucoup. Dans le cas de la première catégorisation, elle tombe dans un apprentissage sensible aux coûts, n'est-ce pas? De plus, dans le cas de la deuxième taxonomie, elle serait classée dans la troisième catégorie, c'est-à-dire le post-traitement sensible aux coûts. est-ce vrai? La deuxième réponse à cela: stackoverflow.com/questions/32492550/… est également utile.
ebrahimi

Réponses:

5

À mon avis, les trois catégorisations s'accordent à bien des égards. Par exemple, les trois ont une catégorie pour les étapes de prétraitement.

J'aurais tendance à être principalement d'accord sur la troisième catégorisation car elle est plus générique et englobe plus de choses.

  • Le niveau des données catégorie au comprend toutes les étapes de prétraitement traitant du déséquilibre de classe (par exemple, sur / sous-échantillonnage).
  • Le niveau de l'algorithme pourrait être considéré comme incluant les deuxièmes catégories des deux premiers articles. Toute modification de l'algorithme qui traite du déséquilibre de classe irait ici (par exemple, pondération de classe).
  • Enfin, une catégorie hybride pour combiner les deux.

La seule chose qui manque dans les deux premiers articles sont les étapes de post-traitement qui, pour être honnête, ne sont pas utilisées dans la pratique aussi souvent que l'autre.

C'est moi Mario
la source