L'AIC et la statistique c tentent de répondre à différentes questions. (De plus, certains problèmes avec la statistique c ont été soulevés ces dernières années, mais je vais y revenir en passant)
Grosso modo:
- L'AIC vous indique dans quelle mesure votre modèle convient à un coût de mauvaise classification spécifique .
- L'AUC vous indique dans quelle mesure votre modèle fonctionnerait, en moyenne, pour tous les coûts de mauvaise classification.
Lorsque vous calculez l'AIC, vous traitez votre logistique en donnant une prédiction de disons 0,9 comme une prédiction de 1 (c'est-à-dire plus probable 1 que 0), mais cela n'est pas nécessaire. Vous pouvez prendre votre score logistique et dire "tout ce qui est supérieur à 0,95 est égal à 1, tout ce qui est inférieur à 0". Pourquoi voudriez-vous faire cela? Eh bien, cela garantirait que vous ne prédisiez que lorsque vous êtes vraiment très confiant. Votre taux de faux positifs sera vraiment très bas, mais votre faux négatif montera en flèche. Dans certaines situations, ce n'est pas une mauvaise chose - si vous allez accuser quelqu'un de fraude, vous voulez probablement être vraiment très sûr en premier. De plus, s'il est très coûteux de suivre les résultats positifs, vous n'en voulez pas trop.
C'est pourquoi cela concerne les coûts. Il y a un coût lorsque vous classifiez un 1 comme 0 et un coût lorsque vous classifiez un 0 comme 1. Typiquement (en supposant que vous avez utilisé une configuration par défaut) l'AIC pour la régression logistique se réfère au cas spécial où les deux erreurs de classification sont également cher. C'est-à-dire que la régression logistique vous donne le meilleur nombre global de prédictions correctes, sans aucune préférence pour positive ou négative.
La courbe ROC est utilisée car elle trace le vrai positif contre le faux positif afin de montrer comment le classificateur fonctionnerait si vous l'utilisiez sous des exigences de coût différentes. La statistique c provient du fait que toute courbe ROC qui se situe strictement au-dessus d'une autre est clairement un classifieur dominant. Il est donc intuitif de mesurer l'aire sous la courbe pour mesurer la qualité globale du classificateur.
Donc, fondamentalement, si vous connaissez vos coûts lors du montage du modèle, utilisez AIC (ou similaire). Si vous construisez simplement un score, mais ne spécifiez pas le seuil de diagnostic, des approches AUC sont nécessaires (avec la mise en garde suivante concernant l'AUC elle-même).
Alors, quel est le problème avec la statistique c / AUC / Gini?
Pendant de nombreuses années, l'AUC a été l'approche standard et est toujours largement utilisée, mais elle présente un certain nombre de problèmes. Une chose qui le rendait particulièrement attrayant était qu'il correspond à un test de Wilcox sur les rangs des classifications. C'est-à-dire qu'il a mesuré la probabilité que le score d'un membre choisi au hasard d'une classe soit plus élevé qu'un membre choisi au hasard de l'autre classe. Le problème est que ce n'est presque jamais une mesure utile.
David Hand a publié les problèmes les plus critiques avec AUC il y a quelques années. (Voir les références ci-dessous) Le nœud du problème est que, bien que l'AUC fasse la moyenne de tous les coûts, parce que l'axe des x de la courbe ROC est le taux de faux positifs, le poids qu'il attribue aux différents régimes de coûts varie selon les classificateurs. Donc, si vous calculez l'ASC sur deux régressions logitiques différentes, il ne mesurera pas "la même chose" dans les deux cas. Cela signifie qu'il est peu logique de comparer des modèles basés sur l'AUC.
Hand a proposé un calcul alternatif en utilisant une pondération de coût fixe, et a appelé cela la mesure H - il y a un package en R appelé hmeasure
qui effectuera ce calcul, et je crois que l'AUC pour comparaison.
Quelques références sur les problèmes avec AUC:
Quand l'aire sous la courbe caractéristique de fonctionnement du récepteur est-elle une mesure appropriée des performances du classificateur? DJ Hand, C. Anagnostopoulos Lettres de reconnaissance de modèle 34 (2013) 492–495
(J'ai trouvé que c'était une explication particulièrement accessible et utile)
Le document Hand cité n'est pas fondé sur une utilisation réelle dans le diagnostic clinique. Il a une courbe théorique avec un 0,5 AUC, qui est plutôt un classificateur parfait. Il utilise un seul ensemble de données du monde réel, où les modèles seraient jetés à la dérive, car ils sont si mauvais, et lors de la prise en compte des intervalles de confiance autour des mesures (données non fournies mais déduites) sont susceptibles d'être aléatoires . Étant donné le manque de données réelles (ou même de simulation plausible), il s'agit d'un papier creux. Personnellement, j'ai participé à l'analyse de milliers de classificateurs parmi des milliers de patients (avec des degrés de liberté suffisants). Dans ce contexte, ses arguments sont insensés.
Il est également sujet aux superlatifs (ce n'est pas bon signe dans aucun contexte) et fait des généralisations non prises en charge, par exemple, les coûts ne peuvent pas être connus. En médecine, certains coûts sont acceptés, comme une valeur prédictive positive de 10% pour les tests de dépistage et 100 000 $ par année de vie ajustée en fonction de la qualité pour les interventions thérapeutiques. J'ai du mal à croire qu'en notation de crédit, les coûts ne sont pas bien compris au départ. S'il dit (peu clairement) que différents faux positifs et faux négatifs individuels ont des coûts différents, alors que c'est un sujet très intéressant, il ne ressemble pas classificateurs binaires.
Si son argument est que la forme ROC est importante, alors pour les utilisateurs sophistiqués, c'est évident, et les utilisateurs non sophistiqués ont bien plus à craindre, par exemple, incorporer la prévalence dans des valeurs prédictives positives et négatives.
Enfin, je n'arrive pas à comprendre comment différents classificateurs ne peuvent pas être jugés sur la base des différents seuils du monde réel déterminés par l'utilisation clinique (ou financière) des modèles. De toute évidence, des seuils différents seraient choisis pour chaque modèle. Les modèles ne seraient pas comparés uniquement sur la base des ASC. Les classificateurs n'ont pas d'importance, mais la forme de la courbe le fait.
la source
Pour moi, l'essentiel est que, bien que la statistique C (AUC) puisse être problématique lors de la comparaison de modèles avec différentes variables indépendantes (analogue à ce que Hand appelle les "classificateurs"), elle est toujours utile dans d'autres applications. Par exemple, des études de validation où le même modèle est comparé entre différentes populations d'études (ensembles de données). Si un modèle ou un indice / score de risque s'avère très discriminant dans une population, mais pas dans d'autres, cela pourrait signifier qu'il ne s'agit pas d'un très bon outil en général, mais peut l'être dans des cas spécifiques.
la source