Envisagez un scénario dans lequel vous disposez de la matrice KnownLabel et de la matrice PredictedLabel. Je voudrais mesurer la qualité de la matrice PredictedLabel par rapport à la matrice KnownLabel.
Mais le défi ici est que la matrice de KnownLabel possède peu de lignes, un seul 1 et les autres lignes ont plusieurs 1 (ces instances sont multi-étiquetées). Un exemple de KnownLabel Matrix est donné ci-dessous.
A =[1 0 0 0
0 1 0 0
0 1 1 0
0 0 1 1
0 1 1 1]
Dans la matrice ci-dessus, les instances de données 1 et 2 sont des données d'étiquette unique, les instances de données 3 et 4 sont deux données d'étiquette et l'instance de données 5 est les trois données d'étiquette.
J'ai maintenant PredictedLabel Matrix d'instance de données utilisant un algorithme.
Je voudrais connaître diverses mesures qui peuvent être utilisées pour mesurer la qualité de la matrice PredictedLabel par rapport à la matrice KnownLabel.
Je peux penser à la différence de norme frobeinus entre eux comme l'une des mesures. Mais je cherche la mesure telle que la précision
Ici, comment pouvons-nous définir le pour plusieurs instances de données?
la source
Réponses:
(1) donne un bon aperçu:
La classification multi-étiquettes de la page Wikipedia n contient également une section sur les paramètres d'évaluation.
J'ajouterais un avertissement que dans le paramètre multi-étiquettes, la précision est ambiguë: elle peut se référer soit au rapport de correspondance exact, soit au score de Hamming (voir cet article ). Malheureusement, de nombreux articles utilisent le terme «précision».
(1) Sorower, Mohammad S. " Une étude de la littérature sur les algorithmes pour l'apprentissage multi-labels. " Oregon State University, Corvallis (2010).
la source
accuracy
mesure, comment gérez-vous avec élégance les cas où le dénominateur|Y + Z| == 0
?La perte de Hamming est probablement la fonction de perte la plus largement utilisée dans la classification multi-étiquettes.
Jetez un œil aux études empiriques sur la classification multi-étiquettes et la classification multi-étiquettes: un aperçu , qui en discutent tous les deux.
la source
Correctly Predicted
est l'intersection entre l'ensemble d'étiquettes suggérées et l'ensemble attendu.Total Instances
est l'union des ensembles ci-dessus (pas de nombre de doublons).Donc, étant donné un seul exemple où vous prédisez des classes
A, G, E
et le cas de test aE, A, H, P
comme bons ceux que vous vous retrouvez avecAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5
la source