Interprétation de l'aire sous la courbe PR

10

Je compare actuellement trois méthodes et j'ai la précision, auROC et auPR comme métriques. Et j'ai les résultats suivants:

Méthode A - acc: 0,75, auROC: 0,75, auPR: 0,45

Méthode B - acc: 0,65, auROC: 0,55, auPR: 0,40

Méthode C - acc: 0,55, auROC: 0,70, auPR: 0,65

J'ai une bonne compréhension de l'exactitude et de l'auROC (pour bien me souvenir, j'essaie souvent de trouver une phrase comme "auROC = caractériser la capacité de bien prédire la classe positive", mais pas exactement, cela m'aide à me souvenir). Je n'ai jamais eu de données auPR auparavant et même si je comprends comment elles sont construites, je ne peux pas avoir le "sentiment" derrière.

En fait, je n'arrive pas à comprendre pourquoi la méthode C a un score incroyablement élevé pour auPR tout en étant mauvaise / moyenne pour la précision et auPR.

Si quelqu'un pouvait m'aider à mieux le comprendre avec une explication simple, ce serait vraiment génial. Je vous remercie.

AdrienNK
la source

Réponses:

11

Un axe des courbes ROC et PR est le même, c'est-à-dire TPR: combien de cas positifs ont été correctement classés parmi tous les cas positifs dans les données.

L'autre axe est différent. ROC utilise le FPR, c'est-à-dire le nombre de déclarations erronées positives sur tous les négatifs dans les données. La courbe PR utilise la précision: combien de vrais positifs parmi tous ceux qui ont été prédits comme positifs. La base du deuxième axe est donc différente. ROC utilise ce qui est dans les données, PR utilise ce qui est dans la prédiction comme base.

La courbe PR est considérée comme plus informative en cas de déséquilibre de classe élevé dans les données, voir cet article http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

inzl
la source
1
Pour l'auROC 0,5 est le minimum (car moins serait mieux en inversant la prédiction). Existe-t-il des règles similaires avec l'auPR? Concernant également mes mesures: que puis-je affirmer en regardant les scores de la méthode C? Parce que je travaille avec le même ensemble de données dans les 3 cas et de mon point de vue pour un ensemble de données avec une distribution plus ou moins égale entre les classes, il ne serait pas logique que l'auROC et auPR ne suivent pas le même classement pour mon méthodes.
AdrienNK
1
quel est le score du classificateur aléatoire dans auPR? Je sais que c'est 0,5 en auROC mais je ne peux pas le savoir en auPR.
Jack Twain
9
Le score auPR attendu pour un classificateur aléatoire n'est que la proportion de vrais cas positifs dans l'ensemble de données. C'est la précision à laquelle vous vous attendez si vous devinez la classe, et vous obtiendrez cette précision pour tous les niveaux de rappel. Ainsi, la courbe PR attendue pour un classificateur aléatoire n'est qu'un rectangle avec des longueurs de côté "proportion de vrais positifs" x 1. Par exemple, si votre ensemble de données contient 10% de cas positifs et 90% de cas négatifs, l'auPR attendu sous chance est de 0,1.
Lizzie Silver