Comment aborder un problème de classification dans lequel l'une des classes est définie par «pas les autres»

9

Supposons que je m'intéresse à trois classes , c 2 , c 3 . Mais mon jeu de données contient en fait plusieurs autres classes réelles ( c j ) n j = 4 .c1c2c3(cj)j=4n

La réponse évidente est de définir une nouvelle classe c 4 qui fait référence à toutes les classes c j , j > 3 , mais je soupçonne que ce n'est pas une bonne idée puisque les échantillons c 4 seront rares et très semblables les uns aux autres.c^4cjj>3c^4

Pour visualiser ce que je veux dire, je suppose que les deux variables suivantes espace et les classes , c 2 , c 3 , c 4 = n j = 4 c j sont représentés en rouge, jusqu'à, vert et noir respectivement. Voici à quoi je pense que mes données ressembleraient.c1c2c3c^4=j=4ncj

entrez la description de l'image ici

Existe-t-il un moyen standard d'aborder ce problème? Quel serait le classificateur le plus efficace et pourquoi?

h3h325
la source
1
Vous voudrez peut-être explorer des modèles sans étiquette positive . Il ressemble à un problème similaire, sauf qu'il est multiclasse et non binaire comme la plupart des problèmes de PU.
Ricardo Cruz

Réponses:

4

c4^

c4^

c1,c2,c3

centj=xiD:yi=jxixiD:yi=j1c1,c2,c3,c4^

Bogas
la source
La suggestion de bogas est excellente si vous n'avez pas beaucoup de chevauchements de classes. Sinon, optez pour un modèle multi-étiquettes.
Ricardo Cruz