J'utilise l'approche bootstrap pour la validation interne d'un modèle multivarié construit avec une régression logistique standard OU un filet élastique.
La procédure que j'utilise est la suivante:
1) construire un modèle en utilisant l'ensemble de données, obtenir des valeurs prédites et calculer l'ASC (AUC_ap, apparent)
2) générer 100 à 500 échantillons de bootstrap dérivés de l'ensemble de données d'origine
3) pour chaque échantillon de bootstrap, suivez la procédure identique à celle du # 1, et obtenez les valeurs prévues et auc pour i) l'échantillon de bootstrap actuel, et ii) le jeu de données d'origine
4) calculer la différence entre i) et ii) (en # 3) pour chacun des échantillons de bootstrap 100-500, et prendre la moyenne -> "optimisme"
5) calculer l'ASC corrigée de l'optimisme: AUC_ap - optimisme
Ma question est QUELLE courbe ROC serait la meilleure à présenter dans un article? Par exemple, le ROC dérivé à l'étape 1 est un choix, mais clairement optimiste. Alternativement, j'ai essayé de générer un "ROC moyen" en utilisant le package R ROCR, basé sur les courbes ROC dérivées à l'étape # 3 (ii). Cependant, l'ASC pour la [moyenne de ces courbes ROC] je ne crois pas est équivalente à la valeur obtenue à l'étape # 5.
Toute contribution est grandement appréciée! -M