J'ai construit une courbe ROC pour un système de diagnostic. L'aire sous la courbe a ensuite été estimée de manière non paramétrique à AUC = 0,89. Lorsque j'ai essayé de calculer la précision au réglage de seuil optimal (le point le plus proche du point (0, 1)), j'ai obtenu la précision du système de diagnostic à 0,8, ce qui est inférieur à l'ASC! Lorsque j'ai vérifié la précision à un autre paramètre de seuil qui est bien loin du seuil optimal, j'ai obtenu une précision égale à 0,92. Est-il possible d'obtenir la précision d'un système de diagnostic au meilleur réglage de seuil inférieure à la précision à un autre seuil et également inférieure à la zone sous la courbe? Voir l'image ci-jointe s'il vous plaît.
roc
reliability
accuracy
auc
Ali Sultan
la source
la source
Réponses:
C'est en effet possible. La clé est de se rappeler que la précision est fortement affectée par le déséquilibre de classe. Par exemple, dans votre cas, vous avez plus d'échantillons négatifs que d'échantillons positifs, car lorsque le FPR (= FPFP+ TN TPTP+ FN = TP+ TNTP+FN+FP+TN
Autrement dit, puisque vous avez beaucoup plus d'échantillons négatifs, si le classificateur prédit 0 tout le temps, il obtiendra toujours une grande précision avec FPR et TPR proches de 0.
Ce que vous appelez le réglage optimal du seuil (le point le plus proche du point (0, 1)) n'est qu'une des nombreuses définitions du seuil optimal: il n'optimise pas nécessairement la précision.
la source
Voir cet exemple, les négatifs sont plus nombreux que les positifs 1000: 1.
Voir, quand
fpr
est 0acc
est maximum.Et voici le ROC, avec une précision annotée.
L'essentiel est que vous pouvez optimiser la précision d'une manière résultant en un faux modèle (
tpr
= 0 dans mon exemple). En effet, la précision n'est pas une bonne métrique, la dichotomisation du résultat devrait être laissée au décideur.Lorsque vous avez des classes déséquilibrées, l'optimisation de la précision peut être triviale (par exemple, prédisez tout le monde comme la classe majoritaire).
Aire sous la courbe de ROC vs précision globale
Précision et aire sous la courbe ROC (AUC)
Et le plus important de tous: pourquoi l'AUC est-elle plus élevée pour un classificateur moins précis que pour un classificateur plus précis?
la source