J'ai appliqué une régression logistique à mes données sur SAS et voici la courbe ROC et le tableau de classification.
Je suis à l'aise avec les chiffres du tableau de classification, mais je ne sais pas exactement ce que la courbe roc et la zone en dessous montrent. Toute explication serait grandement appréciée.
Lorsque vous effectuez une régression logistique, vous obtenez deux classes codées et . Maintenant, vous calculez les probabilités que, compte tenu de certaines varialbes explicatives, un individu appartient à la classe codée . Si vous choisissez maintenant un seuil de probabilité et classifiez tous les individus avec une probabilité supérieure à ce seuil en classe et en dessous comme10110, vous ferez dans la plupart des cas des erreurs car généralement deux groupes ne peuvent pas être parfaitement distingués. Pour ce seuil, vous pouvez maintenant calculer vos erreurs et la soi-disant sensibilité et spécificité. Si vous procédez ainsi pour de nombreux seuils, vous pouvez construire une courbe ROC en traçant la sensibilité par rapport à la spécificité 1 pour de nombreux seuils possibles. La zone sous la courbe entre en jeu si vous souhaitez comparer différentes méthodes qui tentent de discriminer entre deux classes, par exemple une analyse discriminante ou un modèle probit. Vous pouvez construire la courbe ROC pour tous ces modèles et celui avec la zone la plus élevée sous la courbe peut être considéré comme le meilleur modèle.
Si vous avez besoin de mieux comprendre, vous pouvez également lire la réponse à une autre question concernant les courbes ROC en cliquant ici.
En quoi l'aire sous la courbe ROC est-elle différente du taux correct dans le tableau de classification?
Günal
2
Le tableau montre uniquement le correct et le non correct pour un seuil. Cependant, la courbe AUROC est une mesure de la méthode de classification complète et du correct et du non correct pour de nombreux seuils différents.
random_guy
Ravi d'entendre ça!
random_guy
6
L'AUC vous indique simplement à quelle fréquence un tirage aléatoire de vos probabilités de réponse prédites sur vos données étiquetées 1 sera supérieur à un tirage aléatoire de vos probabilités de réponse prédites sur vos données étiquetées 0.
Le modèle de régression logistique est une méthode d'estimation de probabilité directe. La classification ne devrait jouer aucun rôle dans son utilisation. Toute classification non basée sur l'évaluation des services publics (fonction perte / coût) sur des sujets individuels est inappropriée, sauf dans des situations d'urgence très particulières. La courbe ROC n'est pas utile ici; ni la sensibilité ni la spécificité qui, comme la précision globale de la classification, ne sont des règles de notation de précision incorrectes qui sont optimisées par un modèle factice non ajusté par l'estimation du maximum de vraisemblance.
Notez que vous obtenez une discrimination prédictive élevée ( indice élevé (zone ROC)) en sur-adaptant les données. Vous avez peut-être besoin d'au moins observations dans la catégorie la moins fréquente de , où est le nombre de prédicteurs candidats considérés, afin d'obtenir un modèle qui n'est pas significativement surajusté [c'est-à-dire un modèle qui est susceptible de travailler sur de nouvelles données à peu près aussi bien que cela a fonctionné sur les données de formation]. Vous avez besoin d'au moins 96 observations juste pour estimer l'ordonnée à l'origine de telle sorte que le risque prédit a une marge d'erreur avec une confiance de 0,95.c15 pOuip≤ 0,05
@Frank Harrell: Pourriez-vous développer le calcul concernant l'interception ainsi que le commentaire concernant la marge d'erreur. Merci!
2014
@FrankHarrell votre conseil selon lequel nous avons besoin d'au moins 15p observations s'applique-t-il si nous finissons par faire une régression de crête pour calibrer le modèle? Ma compréhension est que nous remplaçons alors p par la dimensionnalité effective.
Lepidopterist
Exact, et je dirais que vous utilisez une pénalisation telle que la pénalité quadratique (crête) pour estimer les paramètres, ce qui se traduit par un meilleur étalonnage
L'AUC vous indique simplement à quelle fréquence un tirage aléatoire de vos probabilités de réponse prédites sur vos données étiquetées 1 sera supérieur à un tirage aléatoire de vos probabilités de réponse prédites sur vos données étiquetées 0.
la source
Le modèle de régression logistique est une méthode d'estimation de probabilité directe. La classification ne devrait jouer aucun rôle dans son utilisation. Toute classification non basée sur l'évaluation des services publics (fonction perte / coût) sur des sujets individuels est inappropriée, sauf dans des situations d'urgence très particulières. La courbe ROC n'est pas utile ici; ni la sensibilité ni la spécificité qui, comme la précision globale de la classification, ne sont des règles de notation de précision incorrectes qui sont optimisées par un modèle factice non ajusté par l'estimation du maximum de vraisemblance.
Notez que vous obtenez une discrimination prédictive élevée ( indice élevé (zone ROC)) en sur-adaptant les données. Vous avez peut-être besoin d'au moins observations dans la catégorie la moins fréquente de , où est le nombre de prédicteurs candidats considérés, afin d'obtenir un modèle qui n'est pas significativement surajusté [c'est-à-dire un modèle qui est susceptible de travailler sur de nouvelles données à peu près aussi bien que cela a fonctionné sur les données de formation]. Vous avez besoin d'au moins 96 observations juste pour estimer l'ordonnée à l'origine de telle sorte que le risque prédit a une marge d'erreur avec une confiance de 0,95.c 15 p Oui p ≤ 0,05
la source
Je ne suis pas l'auteur de ce blog et j'ai trouvé ce blog extrêmement utile: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
En appliquant cette explication à vos données, l'exemple positif moyen a environ 10% d'exemples négatifs avec un score supérieur à celui-ci.
la source