ROC vs courbes de précision et de rappel

159

Je comprends les différences formelles qui les séparent. Ce que je veux savoir, c’est quand il est plus pertinent d’utiliser l’un par rapport à l’autre.

  • Fournissent-ils toujours des informations complémentaires sur les performances d'un système de classification / détection donné?
  • Quand est-il raisonnable de leur fournir les deux, par exemple, dans un document? au lieu d'un seul?
  • Existe-t-il des descripteurs alternatifs (peut-être plus modernes) qui capturent les aspects pertinents à la fois du ROC et du rappel de précision pour un système de classification?

Je suis intéressé par les arguments pour les cas binaires et multi-classes (par exemple, one-vs-all).

Amelio Vazquez-Reina
la source
7
Ce document doit apparaître dans un contexte: biostat.wisc.edu/~page/rocpr.pdf
2
Je pourrais utiliser ceci comme "plug" pour mentionner ici ma propre thèse ... Dans Leitner (2012), j'ai proposé une métrique "F-mesurée Moyenne Précision" (FAP) (voir page 65) comme moyenne harmonique de F- mesure et précision moyenne. C'est-à-dire la combinaison d'une métrique d'évaluation définie et d'une métrique d'évaluation classée. Dans ma thèse, j'ai montré que l'optimisation du score FAP sur l'ensemble d'apprentissage pouvait être utilisée pour identifier la meilleure limite permettant de délimiter une tâche d'extraction d'informations sans limite (en utilisant des centaines de cycles BioCreative!).
fin
1
Voici une autre bonne discussion sur la courbe AUC-ROC et PR sur un jeu de données déséquilibré. Il a la même conclusion que ce que Dsimcha a dit. Lorsque vous vous souciez davantage du cas rare, vous devriez utiliser les relations publiques.
YC

Réponses:

207

La principale différence est que les courbes ROC seront les mêmes quelle que soit la probabilité de base, mais les courbes PR peuvent être plus utiles en pratique pour les problèmes de type aiguille dans la botte de foin ou ceux où la classe "positive" est plus intéressante que la classe négative. classe.

Pour montrer cela, commençons par un très bon moyen de définir précision, rappel et spécificité. Supposons que vous avez une classe « positive » classe appelée 1 et un « négatif » appelé 0. est votre estimation de l'étiquette vraie de la classe . Ensuite: L'essentiel à noter est que la sensibilité / rappel et la spécificité , qui constituent la courbe ROC, sont des probabilités conditionnées par l’étiquette de classe vraie . Par conséquent, ils seront les mêmes indépendamment de ce que est. La précision est une probabilité conditionnée par YY^Y P(Y=1)P(Y=1)

Precision=P(Y=1|Y^=1)Recall=Sensitivity=P(Y^=1|Y=1)Specificity=P(Y^=0|Y=0)
P(Y=1)votre estimation de l'étiquette de classe et variera donc si vous essayez votre classificateur dans différentes populations avec différentes base . Cependant, cela peut être plus utile en pratique si vous ne vous souciez que d’une population avec une probabilité de fond connue et que la classe "positive" est beaucoup plus intéressante que la classe "négative". (La précision IIRC est populaire dans le champ d'extraction de documents, où c'est le cas.) En effet, cela répond directement à la question "Quelle est la probabilité qu'il s'agisse d'un véritable hit étant donné que mon classificateur le dit?".P(Y=1)

Fait intéressant, selon le théorème de Bayes, vous pouvez résoudre des cas où la spécificité peut être très élevée et la précision très faible simultanément. Tout ce que vous avez à faire est de supposer que est très proche de zéro. En pratique, j'ai développé plusieurs classificateurs présentant cette caractéristique de performance lors de la recherche d'aiguilles dans des meules de foin de séquences d'ADN.P(Y=1)

IMHO lors de la rédaction d'un document, vous devez indiquer la courbe qui répond à la question à laquelle vous souhaitez répondre (ou celle qui est plus favorable à votre méthode, si vous êtes cynique). Si votre question est: "Quel est le sens d'un résultat positif de mon classificateur compte tenu des probabilités de base de mon problème ?", Utilisez une courbe PR. Si votre question est la suivante: "Dans quelle mesure ce classificateur peut-il bien fonctionner en général, avec diverses probabilités de base différentes ?", Utilisez une courbe ROC.

Dsimcha
la source
10
C'était une explication fantastique!
Amelio Vazquez-Reina Le
5
+1, grande compréhension des interprétations probabilistes de précision, rappel et spécificité.
Zhubarb
2
Quelle réponse! Je voudrais pouvoir frapper le vote deux fois.
mec london
6
Juste au cas où cela ne ressortait pas clairement de mon commentaire précédent: Cette réponse est fausse , de même que les courbes ROC qui utilisent une spécificité. Voir, par exemple, Introduction à l’analyse ROC - qui évoque également leur lacune, comme indiqué dans ma réponse: "De nombreux domaines du monde réel sont dominés par un grand nombre d’instances négatives. Par conséquent, les performances à l’extrême gauche du graphique ROC deviennent: plus intéressant."
Fin
2
+0,5 @fnl. Bien que ce ne soit pas explicitement faux, je pense que la réponse manque le but de la question; L’interprétation probabiliste est la bienvenue, mais elle n’a rien à voir avec la question centrale. De plus, je ne peux pas proposer d’exemple réaliste générique où la question: " Quel est le sens du résultat positif obtenu par mon classificateur compte tenu des probabilités de base de mon problème? " Est inapplicable. La perspective " en général " de la ROC-AUC est tout simplement trop floue. (Il va sans dire que ni l'un ni l'autre ne doivent être utilisés à la valeur faciale pour construire le modèle final)
usrr8512 le
26

Voici les conclusions d'un article de Davis & Goadrich expliquant la relation entre l'espace ROC et les relations publiques. Ils répondent aux deux premières questions:

Tout d'abord, pour tout jeu de données, la courbe ROC et la courbe PR d'un algorithme donné contiennent les mêmes points. Cette équivalence conduit au surprenant théorème selon lequel une courbe domine dans l'espace ROC si et seulement si elle domine dans l'espace PR. Deuxièmement, en corollaire du théorème, nous montrons l’existence d’un analogue d’espace PR à une coque convexe dans l’espace ROC, que nous appelons une courbe PR réalisable. Remarquablement, lors de la construction de la courbe PR réalisable, on écarte exactement les mêmes points que ceux de la coque convexe dans l'espace ROC. Par conséquent, nous pouvons calculer efficacement la courbe PR réalisable. [...] Enfin, nous montrons qu'un algorithme qui optimise l'aire sous la courbe ROC n'est pas garanti pour optimiser l'aire sous la courbe PR.

En d'autres termes, ROC et PR conviennent en principe également pour comparer les résultats. Mais dans le cas exemple d'un résultat de 20 hits et de 1980 manqués, ils montrent que les différences peuvent être assez dramatiques, comme le montrent les figures 11 et 12.

Figures 11 et 12 de Davis et Goadrich

Résultat / courbe (I) décrit un résultat dans lequel 10 des 20 résultats sont dans les 10 premiers rangs et les 10 résultats restants sont répartis de manière égale sur les 1 500 premiers rangs. Resut (II) décrit un résultat dans lequel les 20 résultats sont répartis de manière égale sur les 500 premiers (sur 2000) rangs. Ainsi, dans les cas où un résultat de "forme" comme (I) est préférable, cette préférence est clairement distinguable dans l’espace PR, tandis que le ROC de la SSC des deux résultats est presque égal.

fnl
la source
1
Ces graphiques ne reflètent pas (discrétisent) la situation décrite, ce qui indiquerait des étapes dans les courbes ROC chaque fois qu'un résultat est rencontré (après les 10 premiers pour la courbe I). ROCCH ressemblerait à ceci avec la coque convexe. De même pour PR, Precision augmentait d'un cran chaque fois qu'un résultat positif était trouvé, puis se désintégrait pendant les ratés, en partant de (0,0) sans rien prédire (au-dessus du seuil) si Precision était défini sur 0 à ce point (0 / 0) - la courbe II indiquée est la précision maximale et non la précision à chaque niveau de seuil (et donc de rappel).
David MW Powers
1
C'est en fait la figure 7 dans la version du document que j'ai trouvé. Le papier interpole effectivement la courbe PR à l'aide de la courbe ROC. Notez que le résultat de la domination repose sur l'hypothèse que le rappel est non nul, ce qui n'est le cas que lorsque le premier résultat est trouvé, et Precision (telle que définie dans le document) est formellement indéfinie (0/0) jusqu'à cette date.
David MW Powers
1
Oui, le problème est le manque de discrétisation correcte (bien qu'un tel tracé puisse se produire s'il est moyenné sur un grand nombre d'essais). Cependant, le résultat de l'article est moins significatif que prévu en raison de problèmes de non-définition et n'est pas aussi significatif que celui auquel vous vous attendiez lorsque vous comprenez simplement le résultat en termes de redimensionnement. Je n’utiliserais jamais les relations publiques, mais j’aimerais parfois passer au ROC ou utiliser PN de manière équivalente.
David MW Powers
1
Premièrement, les graphiques de la figure 7 (11 vs 12) ne sont pas pertinents - ce ne sont pas les graphiques échelonnés pour un système formé (car les exemples positifs dépassent un seuil réducteur), mais correspondent aux moyennes limites à mesure que le nombre de systèmes DIFFÉRENTS approche à l'infini. Second Precision et Recall ont été conçus pour la recherche sur le Web et tous deux IGNORENT totalement le nombre (supposé grand) de vrais négatifs (Prec = TP / PP et Rec = TP / RP). Troisièmement, le graphique Précision et rappel montre en réalité le biais réciproque (1 / PP) par rapport à la prévalence réciproque (1 / RP) pour un niveau de TP donné (si vous avez arrêté une recherche Web à des hits corrects de TP).
David MW Powers
5
OK, alors après avoir levé tous mes doutes, je pense qu'il est nécessaire d'avertir les lecteurs que je pense que la réponse de @DavidMWPowers devrait être préférée à la mienne.
Fin
12

Il y a beaucoup de malentendus au sujet de l'évaluation. Une partie de cela provient de l'approche Machine Learning consistant à essayer d'optimiser des algorithmes sur des jeux de données, sans véritable intérêt pour les données.

Dans un contexte médical, il s'agit des résultats réels: combien de personnes sont sauvées de la mort, par exemple. Dans un contexte médical, la sensibilité (TPR) est utilisée pour voir combien de cas positifs sont correctement détectés (minimisant la proportion de ratés comme faux négatifs = FNR) tandis que la spécificité (TNR) est utilisée pour voir combien de cas négatifs sont correctement éliminé (minimisant la proportion de faux positifs = FPR). Certaines maladies ont une prévalence de un sur un million. Ainsi, si vous prédisez toujours négatif, vous avez une précision de 0,999999 - ceci est obtenu par le simple apprenant de ZeroR qui prédit simplement la classe maximale. Si nous considérons les options Recall et Precision pour prédire que vous êtes sans maladie, alors nous avons Recall = 1 et Precision = 0.999999 pour ZeroR. Bien sûr, si vous inversez + ve et que vous essayez de prédire qu’une personne est atteinte de la maladie avec ZeroR, vous obtenez Recall = 0 et Precision = undef (car vous n’avez même pas fait de prédiction positive, mais souvent les gens définissent la précision comme étant 0 dans ce cas). Cas). Notez que Rappel (+ Ve Rappel) et Rappel Inverse (-ve Rappel), et les TPR, FPR, TNR & FNR associés sont toujours définis, car nous ne nous attaquons au problème que parce que nous savons qu'il existe deux classes à distinguer et que nous fournissons délibérément exemples de chacun.

Notez l'énorme différence entre le cancer manquant dans le contexte médical (quelqu'un meurt et vous êtes poursuivi en justice) et le fait de manquer un article dans une recherche Web (il y a de fortes chances que l'un des autres le mentionnera si c'est important). Dans les deux cas, ces erreurs sont caractérisées comme des faux négatifs, par opposition à une large population de négatifs. Dans le cas de la recherche sur le Web, nous obtiendrons automatiquement une grande quantité de vrais négatifs simplement parce que nous ne montrons qu'un petit nombre de résultats (par exemple, 10 ou 100) et que le fait de ne pas les afficher ne devrait pas vraiment être considéré comme une prédiction négative (cela aurait pu être 101 ), alors que dans le cas du test de cancer, nous avons un résultat pour chaque personne et contrairement à Websearch, nous contrôlons activement le taux de faux négatifs (taux).

ROC explore donc le compromis entre les vrais positifs (par rapport aux faux négatifs comme proportion des vrais positifs) et les faux positifs (par rapport aux vrais négatifs comme proportion des vrais négatifs). Cela équivaut à comparer la sensibilité (rappel +) et la spécificité (rappel -). Il existe également un graphique PN qui ressemble au même endroit où nous traçons TP vs FP plutôt que TPR vs FPR - mais puisque nous faisons le tracé du tracé, la seule différence est les chiffres que nous avons mis sur les échelles. Ils sont liés par les constantes TPR = TP / RP, FPR = TP / RN, où RP = TP + FN et RN = FN + FP sont le nombre de vrais positifs et de vrais négatifs dans le jeu de données et inversement les biais PP = TP + FP et PN = TN + FN est le nombre de fois que nous prévoyons positif ou négatif négatif. Notez que nous appelons rp = RP / N et rn = RN / N la prévalence de resp respectif. négatif et pp = PP / N et rp = RP / N le biais en positif, resp.

Si nous additionnons la sensibilité et la spécificité moyennes ou si nous examinons la courbe de la zone de compromis (l'équivalent de ROC inversant l'axe des x), nous obtenons le même résultat si nous échangeons la classe + ve et + ve. Ceci n'est PAS vrai pour la précision et le rappel (comme illustré ci-dessus avec la prédiction de la maladie par ZeroR). Cet arbitraire est une déficience majeure de Precision, Recall et de leurs moyennes (qu’elles soient arithmétiques, géométriques ou harmoniques) et des graphiques de compromis.

Les graphiques PR, PN, ROC, LIFT et autres sont tracés lorsque les paramètres du système sont modifiés. Cette classe classifie les points pour chaque système individuel formé, souvent avec un seuil augmenté ou diminué pour changer le point auquel une instance est classée positive ou négative.

Parfois, les points tracés peuvent être des moyennes sur (changements de paramètres / seuils / algorithmes de) des ensembles de systèmes entraînés de la même manière (mais en utilisant des nombres aléatoires différents, des échantillonnages ou des ordres). Ce sont des constructions théoriques qui nous renseignent sur le comportement moyen des systèmes plutôt que sur leurs performances face à un problème particulier. Les diagrammes de compromis sont destinés à nous aider à choisir le bon point de fonctionnement pour une application particulière (jeu de données et approche) et c’est de là que ROC tire son nom (Receiver Operating Characteristics vise à maximiser les informations reçues, dans le sens d’information).

Voyons ce à quoi on peut rappeler Recall, TPR ou TP.

TP vs FP (PN) - ressemble exactement à l'intrigue ROC, mais avec des nombres différents

TPR vs FPR (ROC) - Le TPR contre FPR avec AUC reste inchangé si les +/- sont inversés.

TPR vs TNR (alt ROC) - image miroir de ROC avec TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X incs pour les exemples positifs et négatifs (étirement non linéaire)

TPR vs pp (alt LIFT) - ressemble au LIFT, mais avec des nombres différents

TP vs 1 / PP - très similaire à LIFT (mais inversé avec étirement non linéaire)

TPR vs 1 / PP - ressemble au TP vs 1 / PP (nombres différents sur l'axe des ordonnées)

TP vs TP / PP - similaire mais avec expansion de l'axe des x (TP = X -> TP = X * TP)

TPR vs TP / PP - se ressemble mais avec des numéros différents sur les axes

Le dernier est Recall vs Precision!

Notez que pour ces graphiques, les courbes qui dominent les autres (qui sont meilleures ou du moins aussi hautes en tout point) continueront de dominer après ces transformations. Puisque la domination signifie "au moins aussi haut" en chaque point, la courbe supérieure a également une "surface au moins aussi haute" (AUC), car elle inclut également la surface entre les courbes. L'inverse n'est pas vrai: si les courbes se croisent, par opposition au toucher, il n'y a pas de dominance, mais une AUC peut toujours être plus grande que l'autre.

Toutes les transformations ne font que refléter et / ou zoomer de différentes manières (non linéaires) sur une partie particulière du graphe ROC ou PN. Cependant, seul ROC a la bonne interprétation de l'aire sous la courbe (probabilité qu'un positif soit classé plus haut qu'un négatif - statistique de Mann-Whitney U) et de la distance au-dessus de la courbe (probabilité qu'une décision éclairée soit prise plutôt que de deviner - Youden J statistique en tant que forme dichotomique de l’information).

En règle générale, il n’est pas nécessaire d’utiliser la courbe d’ajustement PR, vous pouvez simplement zoomer sur la courbe ROC si des détails sont nécessaires. La courbe ROC a la propriété unique que la diagonale (TPR = FPR) représente le hasard, que la distance au-dessus de la ligne de hasard (DAC) représente l’information ou la probabilité d’une décision éclairée et que l’aire sous la courbe (AUC) représente le classement ou la probabilité d'un classement par paires correct. Ces résultats ne sont pas valables pour la courbe PR, et l'ASC est déformée pour un rappel ou un TPR plus élevé, comme expliqué ci-dessus. PR AUC étant plus ne pas ROC AUC est plus grand et n'implique donc pas un rang accru (probabilité de prédire correctement les paires + / - classées - à savoir combien de fois il prédit + ves au-dessus de -ves) et n'implique pas une information accrue (probabilité d'une prédiction informée plutôt que une supposition aléatoire - à savoir combien de fois il sait ce qu'il fait quand il fait une prédiction).

Désolé, pas de graphique! Si quelqu'un veut ajouter des graphiques pour illustrer les transformations ci-dessus, ce serait génial! Il y en a pas mal dans mes articles sur ROC, LIFT, BIRD, Kappa, F-measure, Informedness, etc., mais ils ne sont pas présentés de cette façon, bien qu'il y ait des illustrations de ROC vs LIFT vs BIRD vs RP dans https : //arxiv.org/pdf/1505.00401.pdf

MISE À JOUR: Pour éviter d’essayer de donner des explications complètes dans des réponses ou des commentaires trop longs, voici quelques-uns de mes articles "découvrant" le problème de Precision vs Recall, des compromis inc. F1, dériver de l’information et ensuite "explorer" les relations avec ROC, Kappa, Significance, DeltaP, AUC, etc. C’est un problème qu’un de mes étudiants est tombé sur il ya 20 ans (Entwisle) et beaucoup d’autres ont depuis découvert cet exemple réel de monde. leur propre où il y avait une preuve empirique que l'approche R / P / F / A envoyait l'apprenant de manière fausse, alors que Informedness (ou Kappa ou Corrélation dans les cas appropriés) l'envoyait de manière VRAIE - maintenant à travers des dizaines de champs. Il existe également de nombreux articles pertinents et pertinents rédigés par d'autres auteurs sur Kappa et ROC, mais lorsque vous utilisez Kappas contre ROC, AUC contre ROC Hauteur (Informedness ou Youden ') s J) est clarifié dans les documents de 2012 que j'ai énumérés (de nombreux documents importants d'autres sont cités dans ceux-ci). Le papier Bookmaker 2003 tire pour la première fois une formule d’information pour le cas multiclass. Le document de 2013 décrit une version multiclasse d’Adaboost adaptée pour optimiser l’information (avec des liens vers le fichier Weka modifié qui l’héberge et l’exécute).

Références

1998 Utilisation actuelle des statistiques dans l’évaluation des analyseurs syntaxiques de la PNL. J Entwisle, DMW Powers - Actes des conférences conjointes sur les nouvelles méthodes de traitement du langage: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Cité par 15

2003 Recall & Precision versus The Bookmaker. DMW Powers - Conférence internationale sur les sciences cognitives: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Cited by 46

Évaluation de 2011: de la précision, du rappel et de la mesure F au ROC, de l'information, du marquage et de la corrélation. Pouvoirs DMW - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Cité par 1749

2012 Le problème avec kappa. Pouvoirs de DMW - Actes de la 13e Conférence du LCA européen: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Cité par 63

ROC-ConCert 2012: Mesure de la cohérence et de la certitude basée sur la ROC. DMW Powers - Congrès de printemps sur l’ingénierie et la technologie (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Cité de 5

2013 ADABOOK & MULTIBOOK:: Boosting adaptatif avec correction du hasard. DMW Powers - Conférence internationale ICINCO sur l'informatique dans la commande, l'automatisation et la robotique http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Cité par 4

David MW Powers
la source
> "l'aire sous la courbe représente le classement ou la probabilité d'un classement correct par paire" Je suppose que c'est exactement ce sur quoi nous ne sommes pas d'accord - le ROC démontre uniquement la qualité du classement dans l'intrigue . Cependant, avec le RP de l'AUC, un nombre unique m'indique immédiatement si le classement est préférable (c'est-à-dire que le résultat I est préférable au résultat II). Le ROC AUC n'a pas cette propriété.
Fin
Le résultat de la domination cité indique que WHEN DEFINED, si une courbe domine en RDC, elle le fait en PR et vice-versa, ce qui signifie également que sa surface est plus élevée dans les deux cas, de sorte qu'il n'y a pas de différence qualitative entre AUC de ROC et PR. La citation sur le classement (Mann-Whitney U) est un résultat quantitatif bien établi en matière de probabilité (partie d'un test de signification) qui a été recommandé assez indépendamment du ROC, mais qui s'est révélé ultérieurement être ROC AUC. De même, Inform a été défini à l'origine de manière indépendante, et il a été démontré par la suite qu'il correspondait à la hauteur du point de fonctionnement de ROC. PR n'a pas de tels résultats.
David MW Powers
1
Comme je l’ai déjà dit, il s’agit simplement de faire l’échelle dans des conditions de domination ("beaucoup plus grand" car multiplié par un grand nombre comme je l’explique en détail), mais dans des conditions de non-domination, le RP PR est trompeur et le ROC AUC est celui qui a une interprétation probabiliste appropriée (Mann-Whitney U ou Rankingness), avec le cas à point de fonctionnement unique correspondant à Gini (ou de manière équivalente le J de Youden ou Informedness, après mise à l'échelle).
David MW Powers
1
Si nous considérons l'AUC du point de fonctionnement unique (SOC) pour plus de simplicité, alors le coefficient de Gini = AUC = (TP / RP + TN / RN) / 2 et Information = Youden J = TP / RP + TN / RN - 1 = Sensibilité + Spécificité -1 = TPR + TNF -1 = Rappel + Rappel Inverse - 1 etc. Maximiser ou l'autre est équivalent, mais le dernier est la probabilité d'une décision éclairée (délibérément le mauvais si -ve). Si RN et TN vont tous deux à l'infini avec TN >> FP, alors TN / RN -> 1 et annule donc Informedness = Recall dans les cas que vous citez. Si au contraire, la classe énorme est RP et TP >> FN, alors TP / RP -> 1 et Informedness = Inverse Recall. Voir les réf.
David MW Powers
1
C'est une réponse très utile, David Powers. Mais pardonnez-moi mon ignorance lorsque vous dites: "En règle générale, il n’est pas nécessaire d’utiliser la courbe d’équilibre des relations publiques et vous pouvez simplement zoomer sur la courbe ROC si des détails sont nécessaires." des détails sur ce que vous voulez dire? Est-ce que cela signifie que je peux utiliser une courbe ROC dans un cas de grave déséquilibre? "Donner un poids plus élevé au FPR ou au TPR produirait un score AUC ROC avec des différences de résultats plus grandes, excellent point!" Comment puis-je faire cela avec mon ROC?
Christopher John