L'AUC est-elle la probabilité de classer correctement une instance sélectionnée au hasard dans chaque classe?

10

J'ai lu cette légende dans un journal et je n'ai jamais vu AUC décrit de cette façon ailleurs. Est-ce vrai? Existe-t-il une preuve ou un moyen simple de voir cela?

La figure 2 montre la précision de prédiction des variables dichotomiques exprimées en termes d'aire sous la courbe caractéristique de fonctionnement du récepteur (AUC), ce qui équivaut à la probabilité de classer correctement deux utilisateurs sélectionnés au hasard, un de chaque classe (par exemple, un homme et une femme) ).

Il me semble que cela ne peut pas être vrai, car pour AUC = 0,5, ce qui précède suggérerait que l'on a une probabilité de 50% de prédire correctement un lancer de pièce deux fois de suite, mais en réalité, vous n'avez qu'une chance de 25% de prédire correctement deux tours de pièces de monnaie dans une rangée. C'est du moins ainsi que je pense à cette déclaration.

thecity2
la source
1
J'apprécie que le concept exprimé dans le titre ne soit pas tout à fait correct de toute façon, mais pour correspondre à la citation, ne devrait-il pas dire "la probabilité de classer correctement ..." plutôt que simplement "la probabilité de classer"? Cela m'a dérouté la première fois que je l'ai lu.
Silverfish
1
C'était déjà un titre assez long! En fait, j'ai envisagé d'ajouter "correctement" croyez-le ou non. :)
thecity2

Réponses:

14

La citation est légèrement incorrecte. L'énoncé correct est que ROC AUC est la probabilité qu'un exemple positif choisi au hasard soit classé plus haut qu'un exemple négatif choisi au hasard. Cela est dû à la relation entre ROC AUC et le test de Wilcoxon des rangs.

Vous trouverez la discussion dans Tom Fawcett " An Introduction to ROC Analysis " éclairante.

Sycorax dit de réintégrer Monica
la source
8

La description de l'auteur n'est pas entièrement exacte. La zone sous la courbe ROC est en fait égale à la probabilité qu'un exemple positif sélectionné au hasard ait un score de risque plus élevé que celui d'un exemple négatif sélectionné au hasard. Cela n'a pas nécessairement quelque chose à voir avec la classification, c'est juste une mesure de la séparation entre les distributions de score.

Pour votre exemple de pièce, imaginez que vous avez deux pièces et chacune a un score qui lui est associé. Vous retournez ensuite les deux pièces jusqu'à ce que l'une monte la tête et l'autre la queue (puisque nous conditionnons des résultats différents). Cela équivaut à avoir un modèle qui effectue un score aléatoire, et la probabilité que la pièce qui a surgi ait un score plus élevé (ou plus bas) est de 1/2.

dsaxton
la source
2

La description que vous avez lue est correcte, bien que je n'aime pas sa formulation. L'aire sous la courbe ROC (AUC) est la probabilité de classer correctement une paire aléatoire d'individus dans la classe 1 de la classe 2. C'est une statistique basée sur le classement, donc si vous deviez deviner si un individu dans la paire est classé plus haut que l'autre, c'est seulement une chance de 50% si vous devinez au hasard. L'AUC est identique [1] à la statistique du test de rang signé de Wilcoxon, et cela peut être utilisé pour illustrer sa signification.

[1]: Mason et Graham (2002). Zones sous les courbes des caractéristiques de fonctionnement relatives (ROC) et des niveaux de fonctionnement relatifs (ROL): signification statistique et interprétation. Journal trimestriel de la Royal Meteorological Society. 128: 2145-2166.

prince_de_poires
la source
1

Comme d'autres l'ont souligné, l'AUC exprime la probabilité qu'un exemple choisi au hasard dans la classe positive reçoive, du classificateur, un score plus élevé qu'un exemple choisi au hasard dans la classe négative.

Pour la preuve de cette propriété, voir: Comment dériver une formule mathématique pour AUC?

Ou la source utilisée pour cette réponse: D. Hand, 2009, Mesurer les performances du classificateur: une alternative cohérente à l'aire sous la courbe ROC

alebu
la source