Courbes ROC pour les jeux de données non équilibrés

10

Considérons une matrice d'entrée et une sortie binaire .yXy

Une façon courante de mesurer les performances d'un classificateur consiste à utiliser des courbes ROC.

Dans un tracé ROC, la diagonale est le résultat qui serait obtenu à partir d'un classificateur aléatoire. En cas de sortie asymétrique les performances d'un classificateur aléatoire peuvent être améliorées en choisissant ou avec des probabilités différentes.0 1y01

Comment les performances d'un tel classificateur peuvent-elles être représentées dans un tracé de courbe ROC? Je suppose que ce devrait être une ligne droite avec un angle différent, et non plus la diagonale?

Exemple de courbe ROC

Donbeo
la source
2
Vous voudrez peut-être essayer la courbe de rappel de précision à la place, "Le tracé de rappel de précision est plus informatif que le tracé ROC lors de l'évaluation des classificateurs binaires sur les jeux de données déséquilibrés", ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , probablement plus site Web accessible créé par les auteurs de l'article, classeval.wordpress.com/simulation-analysis/…
zyxue

Réponses:

16

Les courbes ROC sont insensibles à l'équilibre des classes. La ligne droite que vous obtenez maintenant pour un classificateur aléatoire est déjà le résultat de l'utilisation de différentes probabilités de donner un résultat positif (0 vous amène à (0, 0) et 1 vous amène à (1, 1) avec n'importe quelle plage entre les deux).

Rien ne change dans un cadre déséquilibré.

Marc Claesen
la source
1
Je trouve utile de considérer la signification de l'aire sous la courbe pour voir pourquoi la diagonale ne change pas. L'ASC peut être interprétée comme la probabilité qu'un exemple positif sélectionné au hasard obtienne un score plus élevé qu'un exemple négatif sélectionné au hasard. 1 . Cela me montre plus clairement pourquoi le déséquilibre des classes n'est pas un problème.
JBecker