Dans la discussion: comment générer une courbe roc pour la classification binaire , je pense que la confusion était qu'un "classificateur binaire" (qui est tout classificateur qui sépare 2 classes) était pour Yang ce qu'on appelle un "classificateur discret" (qui produit sorties discrètes 0/1 comme un SVM) et non pas des sorties continues comme les classificateurs ANN ou Bayes ... etc. par leurs scores puisque les sorties sont continues, et un seuil est utilisé pour produire chaque point sur la courbe ROC.
Ma question est pour les "classificateurs discrets binaires", tels que SVM, les valeurs de sortie sont 0 ou 1. Donc, le ROC produit juste un point et non une courbe. Je ne comprends pas pourquoi nous l'appelons toujours une courbe? !! Peut-on encore parler de seuils? Comment utiliser notamment les seuils dans SVM? Comment calculer l'ASC?, La validation croisée joue-t-elle un rôle ici?
la source
Réponses:
Oui, il existe des situations où la courbe de fonctionnement habituelle du récepteur ne peut pas être obtenue et un seul point existe.
Les SVM peuvent être configurés de manière à générer des probabilités d'appartenance à une classe. Ce serait la valeur habituelle pour laquelle un seuil serait modifié pour produire une courbe de fonctionnement du récepteur .
C'est bien ce que vous cherchez?
Les étapes du ROC se produisent généralement avec un petit nombre de cas de test plutôt que d'avoir quelque chose à voir avec une variation discrète de la covariable (en particulier, vous vous retrouvez avec les mêmes points si vous choisissez vos seuils discrets de sorte que pour chaque nouveau point, un seul échantillon change sa mission).
La variation continue d'autres (hyper) paramètres du modèle produit bien sûr des ensembles de paires spécificité / sensibilité qui donnent d'autres courbes dans le système de coordonnées FPR; TPR.
L'interprétation d'une courbe dépend bien sûr de la variation qui a généré la courbe.
Voici un ROC habituel (c'est-à-dire demander des probabilités en sortie) pour la classe "versicolor" de l'ensemble de données iris:
Même type de repère, mais TPR et FPR en fonction des paramètres de réglage γ et C:
FPR; TPR (γ, C = 1, seuil de probabilité = 0,5):
FPR; TPR (γ = 1, C, seuil de probabilité = 0,5):
Ces parcelles ont un sens, mais le sens est décidément différent de celui du ROC habituel!
Voici le code R que j'ai utilisé:
la source
these plots do have a meaning
- quel est le sens de ces parcelles?la source
La courbe ROC trace la spécificité en fonction de la sensibilité qui varie avec le seuil d'une covariable (qui peut être continue ou discrète). Je pense que vous confondez la covariable avec la réponse et que vous ne comprenez peut-être pas complètement ce qu'est une courbe ROC. C'est certainement une courbe si la covariable est continue et que nous regardons un seuil pour que la covariable change continuellement. Si la covariable est discrète, vous pouvez toujours tracer en fonction d'un seuil continu. La courbe serait alors plate avec des pas vers le haut (ou vers le bas) à des seuils qui correspondent aux valeurs discrètes de la covariable. Donc, cela s'appliquerait à SVM et à tout autre classificateur discret.
En ce qui concerne l'AUC, car nous avons encore un ROC (estimé), nous pouvons toujours calculer la zone en dessous. Je ne suis pas sûr de savoir ce que vous aviez en tête avec votre question sur la validation croisée. Dans le contexte des problèmes de classification, la validation croisée est utilisée pour obtenir des estimations sans biais ou presque sans biais des taux d'erreur pour le classificateur. Ainsi, il peut entrer dans la façon dont nous estimons les points sur le ROC.
la source