Je comprends les différences formelles qui les séparent. Ce que je veux savoir, c’est quand il est plus pertinent d’utiliser l’un par rapport à l’autre.
- Fournissent-ils toujours des informations complémentaires sur les performances d'un système de classification / détection donné?
- Quand est-il raisonnable de leur fournir les deux, par exemple, dans un document? au lieu d'un seul?
- Existe-t-il des descripteurs alternatifs (peut-être plus modernes) qui capturent les aspects pertinents à la fois du ROC et du rappel de précision pour un système de classification?
Je suis intéressé par les arguments pour les cas binaires et multi-classes (par exemple, one-vs-all).
machine-learning
roc
precision-recall
Amelio Vazquez-Reina
la source
la source
Réponses:
La principale différence est que les courbes ROC seront les mêmes quelle que soit la probabilité de base, mais les courbes PR peuvent être plus utiles en pratique pour les problèmes de type aiguille dans la botte de foin ou ceux où la classe "positive" est plus intéressante que la classe négative. classe.
Pour montrer cela, commençons par un très bon moyen de définir précision, rappel et spécificité. Supposons que vous avez une classe « positive » classe appelée 1 et un « négatif » appelé 0. est votre estimation de l'étiquette vraie de la classe . Ensuite: L'essentiel à noter est que la sensibilité / rappel et la spécificité , qui constituent la courbe ROC, sont des probabilités conditionnées par l’étiquette de classe vraie . Par conséquent, ils seront les mêmes indépendamment de ce que est. La précision est une probabilité conditionnée par YY^ Y P(Y=1)P(Y=1)
Fait intéressant, selon le théorème de Bayes, vous pouvez résoudre des cas où la spécificité peut être très élevée et la précision très faible simultanément. Tout ce que vous avez à faire est de supposer que est très proche de zéro. En pratique, j'ai développé plusieurs classificateurs présentant cette caractéristique de performance lors de la recherche d'aiguilles dans des meules de foin de séquences d'ADN.P(Y=1)
IMHO lors de la rédaction d'un document, vous devez indiquer la courbe qui répond à la question à laquelle vous souhaitez répondre (ou celle qui est plus favorable à votre méthode, si vous êtes cynique). Si votre question est: "Quel est le sens d'un résultat positif de mon classificateur compte tenu des probabilités de base de mon problème ?", Utilisez une courbe PR. Si votre question est la suivante: "Dans quelle mesure ce classificateur peut-il bien fonctionner en général, avec diverses probabilités de base différentes ?", Utilisez une courbe ROC.
la source
Voici les conclusions d'un article de Davis & Goadrich expliquant la relation entre l'espace ROC et les relations publiques. Ils répondent aux deux premières questions:
En d'autres termes, ROC et PR conviennent en principe également pour comparer les résultats. Mais dans le cas exemple d'un résultat de 20 hits et de 1980 manqués, ils montrent que les différences peuvent être assez dramatiques, comme le montrent les figures 11 et 12.
Résultat / courbe (I) décrit un résultat dans lequel 10 des 20 résultats sont dans les 10 premiers rangs et les 10 résultats restants sont répartis de manière égale sur les 1 500 premiers rangs. Resut (II) décrit un résultat dans lequel les 20 résultats sont répartis de manière égale sur les 500 premiers (sur 2000) rangs. Ainsi, dans les cas où un résultat de "forme" comme (I) est préférable, cette préférence est clairement distinguable dans l’espace PR, tandis que le ROC de la SSC des deux résultats est presque égal.
la source
Il y a beaucoup de malentendus au sujet de l'évaluation. Une partie de cela provient de l'approche Machine Learning consistant à essayer d'optimiser des algorithmes sur des jeux de données, sans véritable intérêt pour les données.
Dans un contexte médical, il s'agit des résultats réels: combien de personnes sont sauvées de la mort, par exemple. Dans un contexte médical, la sensibilité (TPR) est utilisée pour voir combien de cas positifs sont correctement détectés (minimisant la proportion de ratés comme faux négatifs = FNR) tandis que la spécificité (TNR) est utilisée pour voir combien de cas négatifs sont correctement éliminé (minimisant la proportion de faux positifs = FPR). Certaines maladies ont une prévalence de un sur un million. Ainsi, si vous prédisez toujours négatif, vous avez une précision de 0,999999 - ceci est obtenu par le simple apprenant de ZeroR qui prédit simplement la classe maximale. Si nous considérons les options Recall et Precision pour prédire que vous êtes sans maladie, alors nous avons Recall = 1 et Precision = 0.999999 pour ZeroR. Bien sûr, si vous inversez + ve et que vous essayez de prédire qu’une personne est atteinte de la maladie avec ZeroR, vous obtenez Recall = 0 et Precision = undef (car vous n’avez même pas fait de prédiction positive, mais souvent les gens définissent la précision comme étant 0 dans ce cas). Cas). Notez que Rappel (+ Ve Rappel) et Rappel Inverse (-ve Rappel), et les TPR, FPR, TNR & FNR associés sont toujours définis, car nous ne nous attaquons au problème que parce que nous savons qu'il existe deux classes à distinguer et que nous fournissons délibérément exemples de chacun.
Notez l'énorme différence entre le cancer manquant dans le contexte médical (quelqu'un meurt et vous êtes poursuivi en justice) et le fait de manquer un article dans une recherche Web (il y a de fortes chances que l'un des autres le mentionnera si c'est important). Dans les deux cas, ces erreurs sont caractérisées comme des faux négatifs, par opposition à une large population de négatifs. Dans le cas de la recherche sur le Web, nous obtiendrons automatiquement une grande quantité de vrais négatifs simplement parce que nous ne montrons qu'un petit nombre de résultats (par exemple, 10 ou 100) et que le fait de ne pas les afficher ne devrait pas vraiment être considéré comme une prédiction négative (cela aurait pu être 101 ), alors que dans le cas du test de cancer, nous avons un résultat pour chaque personne et contrairement à Websearch, nous contrôlons activement le taux de faux négatifs (taux).
ROC explore donc le compromis entre les vrais positifs (par rapport aux faux négatifs comme proportion des vrais positifs) et les faux positifs (par rapport aux vrais négatifs comme proportion des vrais négatifs). Cela équivaut à comparer la sensibilité (rappel +) et la spécificité (rappel -). Il existe également un graphique PN qui ressemble au même endroit où nous traçons TP vs FP plutôt que TPR vs FPR - mais puisque nous faisons le tracé du tracé, la seule différence est les chiffres que nous avons mis sur les échelles. Ils sont liés par les constantes TPR = TP / RP, FPR = TP / RN, où RP = TP + FN et RN = FN + FP sont le nombre de vrais positifs et de vrais négatifs dans le jeu de données et inversement les biais PP = TP + FP et PN = TN + FN est le nombre de fois que nous prévoyons positif ou négatif négatif. Notez que nous appelons rp = RP / N et rn = RN / N la prévalence de resp respectif. négatif et pp = PP / N et rp = RP / N le biais en positif, resp.
Si nous additionnons la sensibilité et la spécificité moyennes ou si nous examinons la courbe de la zone de compromis (l'équivalent de ROC inversant l'axe des x), nous obtenons le même résultat si nous échangeons la classe + ve et + ve. Ceci n'est PAS vrai pour la précision et le rappel (comme illustré ci-dessus avec la prédiction de la maladie par ZeroR). Cet arbitraire est une déficience majeure de Precision, Recall et de leurs moyennes (qu’elles soient arithmétiques, géométriques ou harmoniques) et des graphiques de compromis.
Les graphiques PR, PN, ROC, LIFT et autres sont tracés lorsque les paramètres du système sont modifiés. Cette classe classifie les points pour chaque système individuel formé, souvent avec un seuil augmenté ou diminué pour changer le point auquel une instance est classée positive ou négative.
Parfois, les points tracés peuvent être des moyennes sur (changements de paramètres / seuils / algorithmes de) des ensembles de systèmes entraînés de la même manière (mais en utilisant des nombres aléatoires différents, des échantillonnages ou des ordres). Ce sont des constructions théoriques qui nous renseignent sur le comportement moyen des systèmes plutôt que sur leurs performances face à un problème particulier. Les diagrammes de compromis sont destinés à nous aider à choisir le bon point de fonctionnement pour une application particulière (jeu de données et approche) et c’est de là que ROC tire son nom (Receiver Operating Characteristics vise à maximiser les informations reçues, dans le sens d’information).
Voyons ce à quoi on peut rappeler Recall, TPR ou TP.
TP vs FP (PN) - ressemble exactement à l'intrigue ROC, mais avec des nombres différents
TPR vs FPR (ROC) - Le TPR contre FPR avec AUC reste inchangé si les +/- sont inversés.
TPR vs TNR (alt ROC) - image miroir de ROC avec TNR = 1-FPR (TN + FP = RN)
TP vs PP (LIFT) - X incs pour les exemples positifs et négatifs (étirement non linéaire)
TPR vs pp (alt LIFT) - ressemble au LIFT, mais avec des nombres différents
TP vs 1 / PP - très similaire à LIFT (mais inversé avec étirement non linéaire)
TPR vs 1 / PP - ressemble au TP vs 1 / PP (nombres différents sur l'axe des ordonnées)
TP vs TP / PP - similaire mais avec expansion de l'axe des x (TP = X -> TP = X * TP)
TPR vs TP / PP - se ressemble mais avec des numéros différents sur les axes
Le dernier est Recall vs Precision!
Notez que pour ces graphiques, les courbes qui dominent les autres (qui sont meilleures ou du moins aussi hautes en tout point) continueront de dominer après ces transformations. Puisque la domination signifie "au moins aussi haut" en chaque point, la courbe supérieure a également une "surface au moins aussi haute" (AUC), car elle inclut également la surface entre les courbes. L'inverse n'est pas vrai: si les courbes se croisent, par opposition au toucher, il n'y a pas de dominance, mais une AUC peut toujours être plus grande que l'autre.
Toutes les transformations ne font que refléter et / ou zoomer de différentes manières (non linéaires) sur une partie particulière du graphe ROC ou PN. Cependant, seul ROC a la bonne interprétation de l'aire sous la courbe (probabilité qu'un positif soit classé plus haut qu'un négatif - statistique de Mann-Whitney U) et de la distance au-dessus de la courbe (probabilité qu'une décision éclairée soit prise plutôt que de deviner - Youden J statistique en tant que forme dichotomique de l’information).
En règle générale, il n’est pas nécessaire d’utiliser la courbe d’ajustement PR, vous pouvez simplement zoomer sur la courbe ROC si des détails sont nécessaires. La courbe ROC a la propriété unique que la diagonale (TPR = FPR) représente le hasard, que la distance au-dessus de la ligne de hasard (DAC) représente l’information ou la probabilité d’une décision éclairée et que l’aire sous la courbe (AUC) représente le classement ou la probabilité d'un classement par paires correct. Ces résultats ne sont pas valables pour la courbe PR, et l'ASC est déformée pour un rappel ou un TPR plus élevé, comme expliqué ci-dessus. PR AUC étant plus ne pas ROC AUC est plus grand et n'implique donc pas un rang accru (probabilité de prédire correctement les paires + / - classées - à savoir combien de fois il prédit + ves au-dessus de -ves) et n'implique pas une information accrue (probabilité d'une prédiction informée plutôt que une supposition aléatoire - à savoir combien de fois il sait ce qu'il fait quand il fait une prédiction).
Désolé, pas de graphique! Si quelqu'un veut ajouter des graphiques pour illustrer les transformations ci-dessus, ce serait génial! Il y en a pas mal dans mes articles sur ROC, LIFT, BIRD, Kappa, F-measure, Informedness, etc., mais ils ne sont pas présentés de cette façon, bien qu'il y ait des illustrations de ROC vs LIFT vs BIRD vs RP dans https : //arxiv.org/pdf/1505.00401.pdf
MISE À JOUR: Pour éviter d’essayer de donner des explications complètes dans des réponses ou des commentaires trop longs, voici quelques-uns de mes articles "découvrant" le problème de Precision vs Recall, des compromis inc. F1, dériver de l’information et ensuite "explorer" les relations avec ROC, Kappa, Significance, DeltaP, AUC, etc. C’est un problème qu’un de mes étudiants est tombé sur il ya 20 ans (Entwisle) et beaucoup d’autres ont depuis découvert cet exemple réel de monde. leur propre où il y avait une preuve empirique que l'approche R / P / F / A envoyait l'apprenant de manière fausse, alors que Informedness (ou Kappa ou Corrélation dans les cas appropriés) l'envoyait de manière VRAIE - maintenant à travers des dizaines de champs. Il existe également de nombreux articles pertinents et pertinents rédigés par d'autres auteurs sur Kappa et ROC, mais lorsque vous utilisez Kappas contre ROC, AUC contre ROC Hauteur (Informedness ou Youden ') s J) est clarifié dans les documents de 2012 que j'ai énumérés (de nombreux documents importants d'autres sont cités dans ceux-ci). Le papier Bookmaker 2003 tire pour la première fois une formule d’information pour le cas multiclass. Le document de 2013 décrit une version multiclasse d’Adaboost adaptée pour optimiser l’information (avec des liens vers le fichier Weka modifié qui l’héberge et l’exécute).
Références
1998 Utilisation actuelle des statistiques dans l’évaluation des analyseurs syntaxiques de la PNL. J Entwisle, DMW Powers - Actes des conférences conjointes sur les nouvelles méthodes de traitement du langage: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Cité par 15
2003 Recall & Precision versus The Bookmaker. DMW Powers - Conférence internationale sur les sciences cognitives: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Cited by 46
Évaluation de 2011: de la précision, du rappel et de la mesure F au ROC, de l'information, du marquage et de la corrélation. Pouvoirs DMW - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Cité par 1749
2012 Le problème avec kappa. Pouvoirs de DMW - Actes de la 13e Conférence du LCA européen: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Cité par 63
ROC-ConCert 2012: Mesure de la cohérence et de la certitude basée sur la ROC. DMW Powers - Congrès de printemps sur l’ingénierie et la technologie (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Cité de 5
2013 ADABOOK & MULTIBOOK:: Boosting adaptatif avec correction du hasard. DMW Powers - Conférence internationale ICINCO sur l'informatique dans la commande, l'automatisation et la robotique http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf
Cité par 4
la source