Aire sous la courbe de ROC vs précision globale

29

Je suis un peu déroutant à propos de la zone sous courbe (AUC) de ROC et de la précision globale.

  1. L'AUC sera-t-elle proportionnelle à la précision globale? En d'autres termes, lorsque nous aurons une plus grande précision globale, aurons-nous définitivement une ASC plus grande? Ou sont-ils par définition positivement corrélés?

  2. S'ils sont positivement corrélés, pourquoi prenons-nous la peine de les signaler tous les deux dans certaines publications?

  3. Dans le cas réel, j'ai effectué une tâche de classification et obtenu les résultats comme suit: le classificateur A a obtenu une précision de 85% et l'ASC de 0,98 et le classificateur B a une précision de 93% et l'ASC de 0,92. La question est, quel classificateur est le meilleur? Ou est-il possible d'obtenir des résultats similaires comme ceux-ci (je veux dire qu'il pourrait y avoir un bogue dans mon implémentation)?

Samo Jerom
la source
1
J'ai trouvé qu'un article pouvait intéresser certains d'entre vous. google.co.uk/…
Samo Jerom
L'AUC n'est-elle pas censée être inférieure à la précision globale puisque nous comptons pour le taux de faux positifs dans la mesure de l'ASC alors que nous ne le faisons pas dans la précision ???
Ali Sultan
ROC AUC est bénéfique lorsque les classes ont des tailles différentes. Si 99% des objets sont positifs, une précision de 99% peut être obtenue par échantillonnage aléatoire. Ensuite, la valeur ROC AUC sera beaucoup plus significative.
Anony-Mousse

Réponses:

26

AUC (basé sur ROC) et la précision globale ne semble pas le même concept.

La précision globale est basée sur un point de coupure spécifique, tandis que ROC essaie tout le point de coupure et trace la sensibilité et la spécificité. Ainsi, lorsque nous comparons la précision globale, nous comparons la précision en fonction d'un certain point de coupure. La précision globale varie d'un point de coupure différent.

Vincent
la source
2
Merci beaucoup pour votre réponse! Je comprends que la précision globale est obtenue à partir d'un certain point de coupure (ou valeur de seuil). Cependant, il existe un meilleur point de coupure, c'est-à-dire celui le plus proche du coin supérieur gauche. Par exemple, ma précision globale est calculée en utilisant ce meilleur point de coupure, et l'ASC est pour tous les différents points de coupure. Alors, comment interpréter cette précision et l'AUC? Par exemple, les performances des deux classificateurs que j'ai mentionnés ci-dessus.
Samo Jerom
3
Oh je vois. Vous comparez la meilleure précision globale et l'ASC. Mais ce sont encore des concepts différents. L'AUC est le P (VRAI prévu | VRAI réel) vs P (FAUX | FAUX), tandis que la précision globale est le P = P (VRAI | VRAI) * P (VRAI réel) + P (FAUX | FAUX) * P (FAUX FAUX réel). Cela dépend donc beaucoup de la proportion de la valeur réelle de votre ensemble de données. En pratique, il semble que la meilleure précision globale soit généralement obtenue lorsque le point de coupure est proche du P (VRAI réel).
Vincent
L'AUC et la meilleure précision globale peuvent donc ne pas être cohérentes, selon la proportion de la valeur réelle de votre ensemble de données. Dans votre cas, il semble que l'un des classificateurs soit davantage axé sur la sensibilité tandis que l'autre sur la spécificité. Et sur votre ensemble de données actuel, le P (VRAI) n'est pas de 50%. Ainsi, la sensibilité et la spécificité contribuent à la précision globale par différentes pondérations. Dans la pratique, le ROC peut nous donner plus d'informations, et nous aimerions choisir le cas par cas plus classe. Par exemple, le classificateur de spam peut se concentrer davantage sur P (pas de spam | pas de spam) pour éviter de manquer des e-mails importants.
Vincent
Merci pour votre réponse. C'est beaucoup plus clair maintenant. Mais si quelqu'un a plus envie de discuter, veuillez poster ici.
Samo Jerom
27

Bien que les deux mesures statistiques soient probablement corrélées, elles mesurent différentes qualités du classificateur.

AUROC

L'aire sous la courbe (AUC) est égale à la probabilité qu'un classificateur classe une instance positive choisie au hasard plus haut qu'un exemple négatif choisi au hasard. Il mesure l'habileté des classificateurs à classer un ensemble de modèles en fonction du degré auquel ils appartiennent à la classe positive, mais sans affecter réellement des modèles aux classes.

La précision globale dépend également de la capacité du classificateur à classer les modèles, mais également de sa capacité à sélectionner un seuil dans le classement utilisé pour attribuer des modèles à la classe positive si elle est supérieure au seuil et à la classe négative si elle est inférieure.

Ainsi, le classificateur avec la statistique AUROC la plus élevée (toutes choses étant égales par ailleurs) est également susceptible d'avoir une précision globale plus élevée car le classement des modèles (que l'AUROC mesure) est bénéfique à la fois pour l'AUROC et pour la précision globale. Cependant, si un classificateur classe bien les motifs, mais sélectionne mal le seuil, il peut avoir un AUROC élevé mais une précision globale médiocre.

Utilisation pratique

Dans la pratique, j'aime collecter la précision globale, l'AUROC et si le classificateur estime la probabilité d'appartenance à la classe, l'entropie croisée ou les informations prédictives. Ensuite, j'ai une métrique qui mesure sa capacité brute à effectuer une classification difficile (en supposant que les coûts de classification erronée faux positifs et faux négatifs sont égaux et que les fréquences de classe dans l'échantillon sont les mêmes que celles utilisées en fonctionnement - une grande hypothèse!), une métrique qui mesure la capacité de classer les modèles et une métrique qui mesure à quel point le classement est calibré en tant que probabilité.

Pour de nombreuses tâches, les coûts de classification erronée opérationnelle sont inconnus ou variables, ou les fréquences de classe opérationnelle sont différentes de celles de l'échantillon de formation ou sont variables. Dans ce cas, la précision globale est souvent assez dénuée de sens et l'AUROC est un meilleur indicateur de performance et, idéalement, nous voulons un classificateur qui génère des probabilités bien calibrées, afin que nous puissions compenser ces problèmes en utilisation opérationnelle. La métrique qui est importante dépend essentiellement du problème que nous essayons de résoudre.

Dikran Marsupial
la source
Dikran, avez-vous une référence pour votre premier paragraphe?
Bunder
@Bunder pas directement, l'AUROC est la probabilité qu'un modèle + ve sélectionné au hasard soit classé plus haut qu'un modèle -ve sélectionné au hasard ( en.wikipedia.org/wiki/… ) et est donc une mesure de la qualité du classement , car nous voudrions que cette probabilité soit aussi élevée que possible.
Dikran Marsupial
5

L'AUC est-elle vraiment une mesure très utile?

Je dirais que le coût escompté est une mesure plus appropriée.

Vous auriez alors un coût A pour tous les faux positifs et un coût B pour tous les faux négatifs. Il se pourrait facilement qu'une autre classe soit relativement plus chère qu'une autre. Bien sûr, si vous avez des coûts pour une fausse classification dans les différents sous-groupes, ce serait une mesure encore plus puissante.

En traçant la coupure sur l'axe des x et le coût attendu sur l'axe des y, vous pouvez voir quel point de coupure minimise le coût prévu.

Officiellement, vous avez une fonction de perte Perte (coupure | données, coût) que vous essayez de minimiser.

Analyste
la source
3
Le coût attendu ne peut être évalué que si vous connaissez les coûts faux positifs et faux négatifs, qui ne sont pas nécessaires pour le calcul de l'AUC, qui est une bonne statistique à utiliser si les coûts sont inconnus ou variables.
Dikran Marsupial
4

Comme toutes les réponses ont été affichées: ROCet accuracyest fondamental deux concepts différents.

D'une manière générale, ROCdécrit le pouvoir discriminant d'un classificateur indépendant de la distribution des classes et des coûts d'erreur de prédiction inégaux (faux positifs et faux négatifs).

La métrique comme accuracyest calculée en fonction de la distribution de classe de test datasetou cross-validation, mais ce rapport peut changer lorsque vous appliquez le classificateur à des données réelles, car la distribution de classe sous-jacente a été modifiée ou inconnue. D'un autre côté, TP rateet FP ratequi sont utilisés pour construire AUCne seront pas affectés par le changement de distribution de classe.

Ling Ma
la source