Quelle est la différence entre les problèmes multiclasses et multilabel?

52

Quelle est la différence entre un problème multiclass et un problème multilabel?

Apprenant
la source
Les deux tâches peuvent être accomplies avec le progiciel Vowpal Wabbit (des liaisons en ligne de commande et python sont disponibles).
Vladislavs Dovgalecs
J'ai appris ce concept et bâti ma compréhension avec ce poste , ils ont expliqué la classification multi-étiquettes d'une manière très élégante.
user235077 le

Réponses:

45

Je soupçonne que la différence réside dans le fait que, dans les problèmes multi-classes, les classes s’excluent mutuellement, tandis que pour les problèmes multi-étiquettes, chaque étiquette représente une tâche de classification différente, mais les tâches sont liées (il ya donc un avantage à les traiter ensemble plutôt que séparément). ). Par exemple, dans le célèbre jeu de données sur les crabes leptograspus, il existe des exemples d'hommes et de femmes de deux formes de crabe de couleur. Vous pouvez aborder ce problème en tant que problème multi-classes avec quatre classes (bleu mâle, bleu femelle, orange mâle, orange femelle) ou en tant que problème multi-étiquettes, une étiquette étant masculine / féminine et l'autre bleue. /Orange. Essentiellement, dans les problèmes multi-étiquettes, un motif peut appartenir à plus d'une classe.

Dikran Marsupial
la source
@Dirkran Merci pour votre explication. Connaissez-vous une autre source où je peux obtenir un jeu de données multilabel autre que csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html et mulan.sourceforge.net/datasets.html
Apprenant
@Learner désolé, ce n'est pas quelque chose sur lequel j'ai beaucoup travaillé. Vous voudrez peut-être jeter un coup d'œil sur l'apprentissage multitâche, qui présente certaines similitudes avec l'apprentissage multi-étiquettes. Peut-être que certains des jeux de données utilisés à cette fin pourraient également servir de points de repère pour un apprentissage multi-étiquettes.
Dikran Marsupial
26

La classification multiclass signifie une tâche de classification comportant plus de deux classes; par exemple, classer un ensemble d'images de fruits qui peuvent être des oranges, des pommes ou des poires. La classification multiclass repose sur l'hypothèse que chaque échantillon est attribué à une seule et même étiquette: un fruit peut être une pomme ou une poire mais pas les deux à la fois.

La classification multi- étiquettes affecte à chaque échantillon un ensemble d'étiquettes cibles. Cela peut être considéré comme une prédiction de propriétés d'un point de données qui ne s'excluent pas mutuellement, telles que des sujets pertinents pour un document. Un texte peut concerner à la fois la religion, la politique, les finances ou l'éducation, ou rien de tout cela.

Tiré de http://scikit-learn.org/stable/modules/multiclass.html

Thamme Gowda
la source
18

Pour compléter les autres réponses, voici quelques chiffres. Une ligne = la sortie attendue pour un échantillon.

Multiclasse

Une colonne = une classe (one-hot encoding)

entrez la description de l'image ici

Multilabel

Une colonne = une classe

entrez la description de l'image ici


Tu vois ça:

  • dans le cas d'étiquettes multiples, un échantillon peut se voir affecter plusieurs classes.
  • dans le cas multiclass, il y a plus de 2 classes au total.

En remarque, rien ne vous empêche d’avoir un problème de classification multioutput-multiclass , par exemple:

entrez la description de l'image ici

Franck Dernoncourt
la source
7

Un problème multi-classes a l'affectation d'instances à l'une des collections finies et mutuellement exclusives. Comme dans l'exemple déjà cité des crabes (de @Dikran): mâle-bleu, femelle-bleu, mâle-orange, femelle-orange. Chacune de celles-ci est exclusive des autres et ensemble, elles sont complètes.

Une forme de problème multi-étiquettes consiste à les diviser en deux étiquettes, sexe et couleur; où le sexe peut être masculin ou féminin et la couleur peut être bleu ou orange. Mais notez qu'il s'agit d'un cas particulier du problème multi-étiquettes, car chaque instance obtiendra toutes les étiquettes (c'est-à-dire que chaque crabe a un sexe et une couleur).

Les problèmes multi-étiquettes incluent également d'autres cas permettant d'attribuer un nombre variable d'étiquettes à chaque instance. Par exemple, un article dans un journal ou un fil de presse peut être affecté aux catégories NOUVELLES, POLITIQUE, SPORTS, MÉDECINE, etc. Un article sur un événement sportif important se verrait attribuer le label SPORTS; tandis que l’autre, qui implique des tensions politiques révélées par un événement sportif particulier, pourrait porter à la fois les labels SPORTS et POLITICS. Là où je suis, aux États-Unis, les résultats du Superbowl sont étiquetés à la fois SPORTS et NEWS en raison de l'impact sociétal de l'événement.

Notez que cette forme d'étiquetage, avec un nombre variable d'étiquettes, peut être reformulée sous une forme similaire à l'exemple avec les crabes; sauf que chaque étiquette est traitée comme LABEL-X ou non-LABEL-X. Mais toutes les méthodes ne nécessitent pas cette refonte.

Doctorambient
la source
2

Et une autre différence réside dans le fait que le problème multi-étiquettes nécessite que le modèle apprenne la corrélation entre les différentes classes, mais dans les problèmes multi-classes, différentes classes sont indépendantes les unes des autres.

Lerner Zhang
la source