Je suis un peu déroutant à propos de la zone sous courbe (AUC) de ROC et de la précision globale.
L'AUC sera-t-elle proportionnelle à la précision globale? En d'autres termes, lorsque nous aurons une plus grande précision globale, aurons-nous définitivement une ASC plus grande? Ou sont-ils par définition positivement corrélés?
S'ils sont positivement corrélés, pourquoi prenons-nous la peine de les signaler tous les deux dans certaines publications?
Dans le cas réel, j'ai effectué une tâche de classification et obtenu les résultats comme suit: le classificateur A a obtenu une précision de 85% et l'ASC de 0,98 et le classificateur B a une précision de 93% et l'ASC de 0,92. La question est, quel classificateur est le meilleur? Ou est-il possible d'obtenir des résultats similaires comme ceux-ci (je veux dire qu'il pourrait y avoir un bogue dans mon implémentation)?
la source
Réponses:
AUC (basé sur ROC) et la précision globale ne semble pas le même concept.
La précision globale est basée sur un point de coupure spécifique, tandis que ROC essaie tout le point de coupure et trace la sensibilité et la spécificité. Ainsi, lorsque nous comparons la précision globale, nous comparons la précision en fonction d'un certain point de coupure. La précision globale varie d'un point de coupure différent.
la source
Bien que les deux mesures statistiques soient probablement corrélées, elles mesurent différentes qualités du classificateur.
AUROC
L'aire sous la courbe (AUC) est égale à la probabilité qu'un classificateur classe une instance positive choisie au hasard plus haut qu'un exemple négatif choisi au hasard. Il mesure l'habileté des classificateurs à classer un ensemble de modèles en fonction du degré auquel ils appartiennent à la classe positive, mais sans affecter réellement des modèles aux classes.
La précision globale dépend également de la capacité du classificateur à classer les modèles, mais également de sa capacité à sélectionner un seuil dans le classement utilisé pour attribuer des modèles à la classe positive si elle est supérieure au seuil et à la classe négative si elle est inférieure.
Ainsi, le classificateur avec la statistique AUROC la plus élevée (toutes choses étant égales par ailleurs) est également susceptible d'avoir une précision globale plus élevée car le classement des modèles (que l'AUROC mesure) est bénéfique à la fois pour l'AUROC et pour la précision globale. Cependant, si un classificateur classe bien les motifs, mais sélectionne mal le seuil, il peut avoir un AUROC élevé mais une précision globale médiocre.
Utilisation pratique
Dans la pratique, j'aime collecter la précision globale, l'AUROC et si le classificateur estime la probabilité d'appartenance à la classe, l'entropie croisée ou les informations prédictives. Ensuite, j'ai une métrique qui mesure sa capacité brute à effectuer une classification difficile (en supposant que les coûts de classification erronée faux positifs et faux négatifs sont égaux et que les fréquences de classe dans l'échantillon sont les mêmes que celles utilisées en fonctionnement - une grande hypothèse!), une métrique qui mesure la capacité de classer les modèles et une métrique qui mesure à quel point le classement est calibré en tant que probabilité.
Pour de nombreuses tâches, les coûts de classification erronée opérationnelle sont inconnus ou variables, ou les fréquences de classe opérationnelle sont différentes de celles de l'échantillon de formation ou sont variables. Dans ce cas, la précision globale est souvent assez dénuée de sens et l'AUROC est un meilleur indicateur de performance et, idéalement, nous voulons un classificateur qui génère des probabilités bien calibrées, afin que nous puissions compenser ces problèmes en utilisation opérationnelle. La métrique qui est importante dépend essentiellement du problème que nous essayons de résoudre.
la source
L'AUC est-elle vraiment une mesure très utile?
Je dirais que le coût escompté est une mesure plus appropriée.
Vous auriez alors un coût A pour tous les faux positifs et un coût B pour tous les faux négatifs. Il se pourrait facilement qu'une autre classe soit relativement plus chère qu'une autre. Bien sûr, si vous avez des coûts pour une fausse classification dans les différents sous-groupes, ce serait une mesure encore plus puissante.
En traçant la coupure sur l'axe des x et le coût attendu sur l'axe des y, vous pouvez voir quel point de coupure minimise le coût prévu.
Officiellement, vous avez une fonction de perte Perte (coupure | données, coût) que vous essayez de minimiser.
la source
Comme toutes les réponses ont été affichées:
ROC
etaccuracy
est fondamental deux concepts différents.D'une manière générale,
ROC
décrit le pouvoir discriminant d'un classificateur indépendant de la distribution des classes et des coûts d'erreur de prédiction inégaux (faux positifs et faux négatifs).La métrique comme
accuracy
est calculée en fonction de la distribution de classe detest dataset
oucross-validation
, mais ce rapport peut changer lorsque vous appliquez le classificateur à des données réelles, car la distribution de classe sous-jacente a été modifiée ou inconnue. D'un autre côté,TP rate
etFP rate
qui sont utilisés pour construireAUC
ne seront pas affectés par le changement de distribution de classe.la source