Comment appliquer des réseaux de neurones sur des problèmes de classification multi-labels?

12

La description:

Soit le domaine problématique la classification de documents où il existe un ensemble de vecteurs de caractéristiques, chacun appartenant à 1 ou plusieurs classes. Par exemple, un document doc_1peut appartenir aux catégories Sportset English.

Question:

En utilisant le réseau de neurones pour la classification, quelle serait l'étiquette pour un vecteur caractéristique? serait-ce un vecteur constituant de toutes les classes tel que 0 soit donné aux classes non pertinentes et 1 aux classes pertinentes? Donc, si la liste des étiquettes de classe est [Sports, News, Action, English, Japanese], alors pour le document, doc_1l'étiquette serait [1, 0, 0, 1, 0]?

Curieuse
la source

Réponses:

3

Oui, dans l'apprentissage multi-étiquettes, les informations d'étiquette sont souvent codées comme le vecteur binaire que vous avez décrit. C'est aussi plus facile donc pour l'évaluation.

Nous pouvons vouloir vérifier MULAN , une bibliothèque Java open source pour l'apprentissage multi-labels. Il s'agit d'une extension Weka et a mis en œuvre de nombreux classificateurs multi-étiquettes, réseaux de neurones inclus. Par exemple, vous pouvez trouver BP-MLL ici .

Weiwei
la source
8

Cela semble être le document que vous recherchez:

Min-Ling Zhang et Zhi-Hua Zhou: réseaux de neurones multi-étiquettes avec applications à la génomique fonctionnelle et à la catégorisation des textes

Du résumé:

Dans l'apprentissage multi-étiquettes, chaque instance de l'ensemble d'apprentissage est associée à un ensemble d'étiquettes, et la tâche consiste à sortir un ensemble d'étiquettes dont la taille est a priori inconnue pour chaque instance invisible. Dans cet article, ce problème est traité dans le façon dont un algorithme de réseau de neurones nommé BP-MLL, c'est-à-dire Backpropagation for Multi-Label Learning, est proposé. ... Les applications à deux problèmes d'apprentissage multi-étiquettes du monde réel, à savoir la génomique fonctionnelle et la catégorisation de texte, montrent que les performances de BP-MLL sont supérieures à celles de certains algorithmes d'apprentissage multi-étiquettes bien établis.

steffen
la source