J'ai quelques ensembles de données EEG que je teste contre deux classes. Je peux obtenir un taux d'erreur décent de LDA (les distributions conditionnelles de classe ne sont pas gaussiennes, mais ont des queues similaires et une séparation suffisamment bonne), et donc je veux tracer le ROC du prédicteur LDA par rapport aux ensembles de données d'autres sujets.
Voici un graphique typique du prédicteur testé par rapport à un seul essai:
J'ai essayé quelques packages différents (pROC et ROCR), et les résultats sont cohérents. Ma question est, qu'est-ce que le coude pointu? Est-ce juste un artefact de la projection produite par le LDA, c'est-à-dire qu'il se trouve qu'il y a une «falaise» où les performances du classificateur s'effondrent?
la source
Bien que cette question ait été posée il y a environ 3 ans, je trouve utile d'y répondre ici après l'avoir rencontrée et avoir été perplexe pendant un certain temps. Lorsque votre sortie de vérité au sol est 0,1 et votre prédiction est 0,1, vous obtenez un coude en forme d'angle. Si votre prédiction ou vérité au sol sont des valeurs de confiance ou des probabilités (disons dans l'intervalle [0,1]), alors vous obtiendrez un coude incurvé.
la source
Je suis d'accord avec John, dans la mesure où la courbe prononcée est due à une rareté des points. Plus précisément, il semble que vous ayez utilisé les prédictions binaires de votre modèle (ie 1/0) et les étiquettes observées (ie 1/0). Pour cette raison, vous avez 3 points, on suppose une coupure de Inf, on suppose une coupure de 0 et la dernière suppose une coupure de 1 qui vous est donnée par le TPR et le FPR de votre modèle et qui est située à l'angle votre graphique.
Au lieu de cela, vous devez utiliser les probabilités de la classe prédite (valeurs comprises entre 0 et 1) et les étiquettes observées (c.-à-d. 1/0). Cela vous donnera alors un nombre de points sur le graphique qui est égal au nombre de probabilités uniques que vous avez (plus un pour Inf). Donc, si vous avez 100 probabilités uniques, vous aurez alors 101 points sur le graphique pour chacun des différents seuils.
la source