Existe-t-il un moyen d'utiliser la régression logistique pour classer les données multi-étiquetées? Par multi-étiqueté, je veux dire des données qui peuvent appartenir à plusieurs catégories simultanément.
Je voudrais utiliser cette approche pour classer certaines données biologiques.
classification
logistic
multilabel
user721975
la source
la source
Réponses:
Je principe, oui - je ne suis pas sûr que ces techniques soient encore appelées régression logistique.
En fait, votre question peut faire référence à deux extensions indépendantes des classificateurs habituels:
Vous pouvez exiger que la somme de toutes les appartenances pour chaque cas soit une ("monde clos" = le cas habituel)
ou supprimer cette contrainte (parfois appelée "classificateurs à une classe").
Cela pourrait être formé par plusieurs modèles LR indépendants bien qu'une classe les problèmes sont souvent mal posés (cette classe contre toutes sortes d'exceptions qui pourraient se situer dans toutes les directions) et alors LR n'est pas particulièrement bien adapté.
appartenances aux classes partielles: chaque cas appartient à l'appartenance à chaque classe, similaire aux appartenances dans l'analyse de cluster floue: Supposons qu'il y a 3 classes A, B, C. Ensuite, un échantillon peut être étiqueté comme appartenant à la classe B. Cela peut également être écrit comme vecteur d'appartenance . Dans cette notation, les appartenances partielles seraient par exemple etc.∈[0,1]nclasses
[A=0,B=1,C=0] [A=0.05,B=0.95,C=0]
différentes interprétations peuvent s'appliquer, selon le problème (appartenances floues ou probabilités):
pour la prédiction, par exemple les probabilités postérieures sont non seulement possibles mais en fait assez courantes
et même la validation
L'idée générale est que pour les cas limites, il peut ne pas être possible de les assigner sans ambiguïté à une classe.
En R par exemple,
nnet:::multinom
qui fait partie de MASS, accepte ces données pour la formation. Un ANN avec sigmoïde logistique et sans couche cachée est utilisé dans les coulisses.J'ai développé un package
softclassval
pour la partie validation.Les classificateurs à une classe sont bien expliqués dans Richard G.Brereton: Chemometrics for Pattern Recognition, Wiley, 2009.
Nous donnons une discussion plus détaillée des adhésions partielles dans cet article: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B Sobottka, Gabriele Schackert & Reiner Salzer: Classement spectroscopique Raman des tissus d'astrocytome: en utilisant des informations de référence souples. Anal Bioanal Chem, 2011, vol. 400 (9), pp. 2801-2816
la source
Une façon simple de procéder à une classification multi-étiquettes avec un classificateur multi-classes (comme la régression logistique multinomiale) consiste à attribuer chaque affectation possible d'étiquettes à sa propre classe. Par exemple, si vous effectuez une classification binaire multi-étiquettes et que vous avez 3 étiquettes, vous pouvez attribuer
et ainsi de suite, résultant en classes.23=8
Le problème le plus évident avec cette approche est que vous pouvez vous retrouver avec un grand nombre de classes même avec un nombre relativement petit d'étiquettes (si vous avez étiquettes, vous aurez besoin de classes). Vous ne pourrez pas non plus prédire les affectations d'étiquettes qui ne sont pas présentes dans votre jeu de données, et vous ferez un usage assez médiocre de vos données, mais si vous avez beaucoup de données et une bonne couverture des affectations d'étiquettes possibles , ces choses peuvent ne pas avoir d'importance.n 2n
Au-delà de cela et de ce qui a été suggéré par d'autres, vous voudrez probablement regarder des algorithmes de prédiction structurés tels que des champs aléatoires conditionnels.
la source
Ce problème est également lié à un apprentissage sensible aux coûts où la prédiction d'une étiquette pour un échantillon peut avoir un coût. Pour les échantillons à étiquettes multiples, le coût de ces étiquettes est faible tandis que celui des autres étiquettes est plus élevé.
Vous pouvez jeter un œil à ce tutoriel dont vous pouvez également trouver les diapositives correspondantes ici .
la source