J'essaie de comprendre comment calculer le point de coupure optimal pour une courbe ROC (la valeur à laquelle la sensibilité et la spécificité sont maximisées). J'utilise l'ensemble aSAH
de données du package pROC
.
La outcome
variable pourrait s'expliquer par deux variables indépendantes: s100b
et ndka
. En utilisant la syntaxe du Epi
package, j'ai créé deux modèles:
library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)
La sortie est illustrée dans les deux graphiques suivants:
Dans le premier graphique ( s100b
), la fonction indique que le point de coupure optimal est localisé à la valeur correspondant à lr.eta=0.304
. Dans le deuxième graphique ( ndka
), le point de coupure optimal est localisé à la valeur correspondante à lr.eta=0.335
(quelle est la signification de lr.eta
). Ma première question est:
- quelles sont les valeurs correspondantes
s100b
etndka
leslr.eta
valeurs indiquées (quel est le seuil optimal en termes des100b
etndka
)?
DEUXIÈME QUESTION:
Supposons maintenant que je crée un modèle prenant en compte les deux variables:
ROC(form=outcome~ndka+s100b, data=aSAH)
Le graphique obtenu est:
Je veux savoir quelles sont les valeurs de ndka
ET s100b
auxquelles la sensibilité et la spécificité sont maximisées par la fonction. En d'autres termes: quelles sont les valeurs de ndka
et s100b
pour lesquelles nous avons Se = 68,3% et Sp = 76,4% (valeurs dérivées du graphique)?
Je suppose que cette deuxième question est liée à l'analyse multiROC, mais la documentation du Epi
package n'explique pas comment calculer le point de coupure optimal pour les deux variables utilisées dans le modèle.
Ma question semble très similaire à cette question de reasearchGate , qui dit en bref:
La détermination du score seuil qui représente un meilleur compromis entre la sensibilité et la spécificité d'une mesure est simple. Cependant, pour l'analyse de la courbe ROC multivariée, j'ai noté que la plupart des chercheurs se sont concentrés sur des algorithmes pour déterminer la précision globale d'une combinaison linéaire de plusieurs indicateurs (variables) en termes d'AUC. [...]
Cependant, ces méthodes ne mentionnent pas comment décider d'une combinaison de scores de coupure associés aux multiples indicateurs qui donne la meilleure précision diagnostique.
Une solution possible est celle proposée par Shultz dans son article , mais à partir de cet article, je ne suis pas en mesure de comprendre comment calculer le point de coupure optimal pour une courbe ROC multivariée.
Peut-être que la solution du Epi
package n'est pas idéale, donc tout autre lien utile sera apprécié.
Je suppose queη
lr.eta
c'est le prédicteur linéaire - le logit - du modèle ajusté, car est un symbole couramment utilisé pour lui; ou, sinon, la probabilité du modèle ajusté. (Il s'avère que c'est le dernier: voir /programming//a/38532555/1864816 .) Vous pouvez archiver le code . Dans tous les cas, vous pourrez le calculer à partir des coefficients du modèle pour n'importe quel nombre de prédicteurs. (Notez que ce ne sera pas un seuil pour chaque prédicteur séparément, mais une fonction de tous les prédicteurs.)ROC
Votre première phrase devrait dire (comme en témoignent les graphiques) que vous cherchez où la somme de sensibilité et de spécificité est maximisée. Mais pourquoi est-ce "optimal"? Un résultat faux positif a-t-il la même importance qu'un résultat faux négatif? Voyez ici .
la source
coords
fonction dupROC
package, comme je l'ai trouvé plus tard. Le point de coupure optimal était, dans mon cas, la meilleure combinaison de Sens et Spec; J'ai lu la réponse liée, mais je ne me soucie pas (au moins pour l'instant) des résultats faux positifs et faux négatifs, car (si j'ai bien compris) j'analyse un groupe de données collectées pour la recherche.lr.eta
c'est exactement la deuxième option que vous mentionnez: la probabilité du modèle ajusté: . Vérifiez ceci si vous avez une minute.Vous pouvez trouver le seuil auquel le vrai taux positif (tpr) coupe le vrai taux négatif (tnr), ce sera le point auquel la somme des faux positifs et des faux négatifs est un minimum.
la source