J'utilise un classificateur qui renvoie des probabilités. Pour calculer l'ASC, j'utilise pROC R-package. Les probabilités de sortie du classificateur sont:
probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)
probs
montre la probabilité d'être dans la classe «1». Comme indiqué, le classificateur a classé tous les échantillons dans la classe «1».
Le vrai vecteur d'étiquette est:
truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)
Comme indiqué, le classificateur a mal classé 5 échantillons. Mais, l'AUC est:
pROC::auc(truel, probs)
Area under the curve: 1
Pourriez-vous s'il vous plaît m'expliquer pourquoi cela se produit?
machine-learning
auc
user4704857
la source
la source
Réponses:
L'AUC est une mesure de la capacité de classer les exemples selon la probabilité d'appartenance à une classe. Ainsi, si toutes les probabilités sont supérieures à 0,5, vous pouvez toujours avoir une ASC de un si tous les modèles positifs ont des probabilités plus élevées que tous les modèles négatifs. Dans ce cas, il y aura un seuil de décision supérieur à 0,5, ce qui donnerait un taux d'erreur de zéro. Notez que parce que l'ASC ne mesure que le classement des probabilités, elle ne vous dit pas si les probabilités sont bien calibrées (par exemple, il n'y a pas de biais systématique), si le calibrage des probabilités est important, alors regardez la métrique d'entropie croisée.
la source
Les autres réponses expliquent ce qui se passe, mais j'ai pensé qu'une photo pourrait être agréable.
Vous pouvez voir que les classes sont parfaitement séparées, donc l'ASC est 1, mais un seuil à 1/2 produira un taux de classification erronée de 50%.
la source
Les échantillons n'étaient pas du tout "mal classés". Les
0
exemples sont classés strictement inférieurs aux1
exemples. L'AUROC fait exactement ce pour quoi il est défini, c'est-à-dire mesurer la probabilité qu'un élément sélectionné au hasard1
soit mieux classé qu'un élément sélectionné au hasard0
. Dans cet exemple, cela est toujours vrai, il s'agit donc d'un événement de probabilité 1.Tom Fawcett a un excellent article explicatif sur les courbes ROC. Je suggère de commencer par là.
Tom Fawcett. «An Introduction to ROC Analysis». Lettres de reconnaissance de formes. 2005.
la source