Validation interne via bootstrap: quelle courbe ROC présenter?

8

J'utilise l'approche bootstrap pour la validation interne d'un modèle multivarié construit avec une régression logistique standard OU un filet élastique.

La procédure que j'utilise est la suivante:

1) construire un modèle en utilisant l'ensemble de données, obtenir des valeurs prédites et calculer l'ASC (AUC_ap, apparent)

2) générer 100 à 500 échantillons de bootstrap dérivés de l'ensemble de données d'origine

3) pour chaque échantillon de bootstrap, suivez la procédure identique à celle du # 1, et obtenez les valeurs prévues et auc pour i) l'échantillon de bootstrap actuel, et ii) le jeu de données d'origine

4) calculer la différence entre i) et ii) (en # 3) pour chacun des échantillons de bootstrap 100-500, et prendre la moyenne -> "optimisme"

5) calculer l'ASC corrigée de l'optimisme: AUC_ap - optimisme

Ma question est QUELLE courbe ROC serait la meilleure à présenter dans un article? Par exemple, le ROC dérivé à l'étape 1 est un choix, mais clairement optimiste. Alternativement, j'ai essayé de générer un "ROC moyen" en utilisant le package R ROCR, basé sur les courbes ROC dérivées à l'étape # 3 (ii). Cependant, l'ASC pour la [moyenne de ces courbes ROC] je ne crois pas est équivalente à la valeur obtenue à l'étape # 5.

Toute contribution est grandement appréciée! -M

Mat
la source

Réponses:

5

Vous faites l'hypothèse que la courbe ROC est informative et conduit à de bonnes décisions. Ni l'un ni l'autre n'est vrai. Je n'ai pas encore vu une courbe ROC qui a fourni des informations utiles. Il a également un grand rapport encre: information. L' indice (probabilité de concordance) est une bonne mesure de la discrimination prédictive. J'aimerais mieux que ce ne soit pas aussi l'AUROC. Il n'est pas nécessaire de présenter une courbe ROC.c

En plus d'avoir un faible rendement d'information, les courbes ROC invitent les analystes à rechercher des seuils sur les probabilités prédites, ce qui est un désastre décisionnel.

Frank Harrell
la source
0

Vous avez soulevé une très bonne question que je me posais depuis longtemps. Cela dépend peut-être de vos résultats pour décider de la façon de signaler. Pour la plupart des situations, les auteurs aimeraient signaler une AUC brute / apparente (c.-à-d. L'étape n ° 1 de votre question) malgré un optimisme excessif ou non, puis signaler l'ASC corrigée de l'optimisme du bootstrap (c.-à-d. L'étape n ° 5). voir ref: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0125026

Dans certaines situations où l'AUC ne semble pas trop optimiste, l'auteur rapporterait directement l'ASC corrigée.

Quant à l'AUC à l'étape 3 (ii), elle a rarement été signalée et vous feriez mieux de l'ignorer.

Pratique
la source
-2

Il y a beaucoup de détails qui manquent à votre question - mais il me semble que vous ne parlez pas de l' ensemble de test . Si vous avez l'intention de démontrer la généralisabilité de votre modèle (qui est le principal cas d'utilisation d'une courbe ROC), vous devez présenter le ROC dérivé d'un ensemble de test , et non d'une validation ou d' un ensemble de validation interne . ou un ROC moyen dérivé de plusieurs ensembles de tests. Par conséquent, il est important que vous trouviez un moyen de générer des ensembles de tests et que vous le preniez à partir de là.

Une bonne référence pour apprendre l'analyse ROC (et comment créer des courbes ROC moyennes) est:

Fawcett, T. (2006). Une introduction à l'analyse ROC. Lettres de reconnaissance de formes, 27 (8), 861–874. http://www.sciencedirect.com/science/article/pii/S016786550500303X

Pradeep Reddy Raamana
la source
La création d'un ensemble de tests à partir du même flux de données est toujours une validation interne et est moins fiable que l'utilisation du bootstrap d'optimisme. La validation des échantillons fractionnés est incroyablement inefficace et en fait souvent trompeuse. J'en discute en détail dans Biostatistics for Biomedical Research Section 10.11 disponible sur biostat.mc.vanderbilt.edu/ClinStat
Frank Harrell