Pourquoi l'aire sous la courbe ROC a-t-elle une probabilité qu'un classificateur classe une instance "positive" choisie au hasard (à partir des prédictions récupérées) plus élevée qu'une instance "positive" choisie au hasard (à partir de la classe positive d'origine)? Comment prouver mathématiquement cette affirmation en utilisant l'intégrale, en donnant les CDF et PDF des véritables distributions de classes positives et négatives?
probability
roc
auc
mff
la source
la source
Réponses:
Tout d'abord, essayons de définir formellement l'aire sous la courbe ROC. Quelques hypothèses et définitions:
Nous avons un classificateur probabiliste qui génère un «score» s (x), où x sont les caractéristiques, et s est une fonction monotone croissante générique de la probabilité estimée p (classe = 1 | x).
La classification d'une nouvelle observation est obtenue en comparant le score s à un seuil t
De plus, pour des raisons mathématiques, considérons la classe positive (événement détecté) k = 0 et négative k = 1. Dans ce paramètre, nous pouvons définir:
La courbe ROC est alors un tracé de contre . En définissant , nous pouvons définir formellement l'aire sous la courbe ROC comme : Modification de la variable ( ):F0(t) F1(t) v=F1(s)
Cette formule peut facilement être considérée comme la probabilité qu'un membre tiré au hasard de la classe 0 produise un score inférieur au score d'un membre tiré au hasard de la classe 1.
Cette preuve est tirée de: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf
la source
La réponse de @ alebu est excellente. Mais sa notation n'est pas standard et utilise 0 pour la classe positive et 1 pour la classe négative. Voici les résultats de la notation standard (0 pour la classe négative et 1 pour la classe positive):
Pdf et cdf du score pour la classe négative: etf0(s) F0(s)
Pdf et cdf du score pour la classe positive: etf1(s) F1(s)
FPR =x(s)=1−F0(s)
TPR =y(s)=1−F1(s)
où signifie seuil. On peut appliquer l'interprétation de la réponse de @ alebu à la dernière expression.τ
la source
La façon de calculer l'AUC-ROC consiste à tracer le TPR et le FPR comme seuil, est modifié et calcule l'aire sous cette courbe. Mais pourquoi cette zone sous la courbe est-elle la même que cette probabilité? Supposons ce qui suit:τ
Notez que le TPR (rappel) est donné par: et le FPR (retombées) est donné par: .P(A>τ) P(B>τ)
Maintenant, nous traçons le TPR sur l'axe des y et le FPR sur l'axe des x, dessinons la courbe pour divers et calculons l'aire sous cette courbe ( ).τ AUC
On a:
Maintenant, ici était juste lex FPR
Mais nous savons de la transformation inverse la loi que pour toute variable aléatoire , si puis . Cela suit puisque la prise de n'importe quelle variable aléatoire et l'application de son propre CDF conduit à l'uniforme.X FX(Y)∼U Y∼X
L'utilisation de ce fait dans l'équation (2) nous donne:
En substituant cela à l'équation (1), nous obtenons:
En d'autres termes, l'aire sous la courbe est la probabilité qu'un échantillon positif aléatoire obtienne un score plus élevé qu'un échantillon négatif aléatoire.
la source