Quelle est la différence entre ce que l'AIC et la statistique c (AUC) mesurent réellement pour l'ajustement du modèle?

29

Le critère d'information d'Akaike (AIC) et la statistique c (aire sous la courbe ROC) sont deux mesures de l'ajustement du modèle pour la régression logistique. J'ai du mal à expliquer ce qui se passe lorsque les résultats des deux mesures ne sont pas cohérents. Je suppose qu'ils mesurent des aspects légèrement différents de l'ajustement du modèle, mais quels sont ces aspects spécifiques?

J'ai 3 modèles de régressions logistiques. Le modèle M0 a quelques covariables standard. Le modèle M1 ajoute X1 à M0; le modèle M2 ajoute X2 à M0 (donc M1 et M2 ne sont pas imbriqués).

La différence d'AIC de M0 à M1 et M2 est d'environ 15, ce qui indique que X1 et X2 améliorent tous deux l'ajustement du modèle, et d'environ la même quantité.

les statistiques c sont: M0, 0,70; M1, 0,73; M2 0,72. La différence de c-statistique de M0 à M1 est significative (méthode de DeLong et al 1988), mais la différence de M0 à M2 n'est pas significative, ce qui indique que X1 améliore l'ajustement du modèle, mais pas X2.

X1 n'est pas systématiquement collecté. Le X2 est censé être collecté régulièrement mais est absent dans environ 40% des cas. Nous voulons décider de commencer à collecter X1, d'améliorer la collecte de X2 ou de supprimer les deux variables.

D'après l'AIC, nous concluons que les variables apportent une amélioration similaire au modèle. Il est probablement plus facile d'améliorer la collecte de X2 que de commencer à collecter une toute nouvelle variable (X1), nous visons donc à améliorer la collecte de X2. Mais à partir de la statistique c, X1 améliore le modèle et pas X2, nous devons donc oublier X2 et commencer à collecter X1.

Comme notre recommandation dépend des statistiques sur lesquelles nous nous concentrons, nous devons comprendre clairement la différence dans ce qu'elles mesurent.

Tout conseil bienvenu.

timbp
la source

Réponses:

25

L'AIC et la statistique c tentent de répondre à différentes questions. (De plus, certains problèmes avec la statistique c ont été soulevés ces dernières années, mais je vais y revenir en passant)

Grosso modo:

  • L'AIC vous indique dans quelle mesure votre modèle convient à un coût de mauvaise classification spécifique .
  • L'AUC vous indique dans quelle mesure votre modèle fonctionnerait, en moyenne, pour tous les coûts de mauvaise classification.

Lorsque vous calculez l'AIC, vous traitez votre logistique en donnant une prédiction de disons 0,9 comme une prédiction de 1 (c'est-à-dire plus probable 1 que 0), mais cela n'est pas nécessaire. Vous pouvez prendre votre score logistique et dire "tout ce qui est supérieur à 0,95 est égal à 1, tout ce qui est inférieur à 0". Pourquoi voudriez-vous faire cela? Eh bien, cela garantirait que vous ne prédisiez que lorsque vous êtes vraiment très confiant. Votre taux de faux positifs sera vraiment très bas, mais votre faux négatif montera en flèche. Dans certaines situations, ce n'est pas une mauvaise chose - si vous allez accuser quelqu'un de fraude, vous voulez probablement être vraiment très sûr en premier. De plus, s'il est très coûteux de suivre les résultats positifs, vous n'en voulez pas trop.

C'est pourquoi cela concerne les coûts. Il y a un coût lorsque vous classifiez un 1 comme 0 et un coût lorsque vous classifiez un 0 comme 1. Typiquement (en supposant que vous avez utilisé une configuration par défaut) l'AIC pour la régression logistique se réfère au cas spécial où les deux erreurs de classification sont également cher. C'est-à-dire que la régression logistique vous donne le meilleur nombre global de prédictions correctes, sans aucune préférence pour positive ou négative.

La courbe ROC est utilisée car elle trace le vrai positif contre le faux positif afin de montrer comment le classificateur fonctionnerait si vous l'utilisiez sous des exigences de coût différentes. La statistique c provient du fait que toute courbe ROC qui se situe strictement au-dessus d'une autre est clairement un classifieur dominant. Il est donc intuitif de mesurer l'aire sous la courbe pour mesurer la qualité globale du classificateur.

Donc, fondamentalement, si vous connaissez vos coûts lors du montage du modèle, utilisez AIC (ou similaire). Si vous construisez simplement un score, mais ne spécifiez pas le seuil de diagnostic, des approches AUC sont nécessaires (avec la mise en garde suivante concernant l'AUC elle-même).

Alors, quel est le problème avec la statistique c / AUC / Gini?

Pendant de nombreuses années, l'AUC a été l'approche standard et est toujours largement utilisée, mais elle présente un certain nombre de problèmes. Une chose qui le rendait particulièrement attrayant était qu'il correspond à un test de Wilcox sur les rangs des classifications. C'est-à-dire qu'il a mesuré la probabilité que le score d'un membre choisi au hasard d'une classe soit plus élevé qu'un membre choisi au hasard de l'autre classe. Le problème est que ce n'est presque jamais une mesure utile.

David Hand a publié les problèmes les plus critiques avec AUC il y a quelques années. (Voir les références ci-dessous) Le nœud du problème est que, bien que l'AUC fasse la moyenne de tous les coûts, parce que l'axe des x de la courbe ROC est le taux de faux positifs, le poids qu'il attribue aux différents régimes de coûts varie selon les classificateurs. Donc, si vous calculez l'ASC sur deux régressions logitiques différentes, il ne mesurera pas "la même chose" dans les deux cas. Cela signifie qu'il est peu logique de comparer des modèles basés sur l'AUC.

Hand a proposé un calcul alternatif en utilisant une pondération de coût fixe, et a appelé cela la mesure H - il y a un package en R appelé hmeasurequi effectuera ce calcul, et je crois que l'AUC pour comparaison.

Quelques références sur les problèmes avec AUC:

  • Quand l'aire sous la courbe caractéristique de fonctionnement du récepteur est-elle une mesure appropriée des performances du classificateur? DJ Hand, C. Anagnostopoulos Lettres de reconnaissance de modèle 34 (2013) 492–495

    (J'ai trouvé que c'était une explication particulièrement accessible et utile)

Corone
la source
2
Et voici un autre article de DJ Hand: Mesurer les performances du classificateur: une alternative cohérente à l'aire sous la courbe ROC , Machine Learning (2009) 77: 103–123.
chl
C'était celui que je cherchais - oui, c'était le premier article clé à ce sujet (bien que je pense qu'il s'adresse par conséquent à un public plus technique que certains des articles ultérieurs).
Corone
3
R2
Je suis confus par la réponse de Corone, je pensais que l'AIC n'avait rien à voir avec les performances prédictives d'un modèle et que ce n'était qu'une mesure de la probabilité que les données soient échangées avec la complexité du modèle.
Zhubarb
@Berkan ne savez pas ce que vous entendez par "rien à voir avec les performances prédictives", à moins que vous vouliez simplement dire qu'il s'agit d'une mesure dans l'échantillon et non hors échantillon? (Plus la probabilité est meilleure, mieux il «prédit» ces points de données). Le fait est que l'AIC est pour une fonction de vraisemblance spécifique et pré choisie, tandis que l'AIC est une moyenne sur un ensemble d'entre eux. Si vous connaissez la probabilité (seuil, coûts, prévalence ...), vous pouvez utiliser l'AIC.
Corone
3

Le document Hand cité n'est pas fondé sur une utilisation réelle dans le diagnostic clinique. Il a une courbe théorique avec un 0,5 AUC, qui est plutôt un classificateur parfait. Il utilise un seul ensemble de données du monde réel, où les modèles seraient jetés à la dérive, car ils sont si mauvais, et lors de la prise en compte des intervalles de confiance autour des mesures (données non fournies mais déduites) sont susceptibles d'être aléatoires . Étant donné le manque de données réelles (ou même de simulation plausible), il s'agit d'un papier creux. Personnellement, j'ai participé à l'analyse de milliers de classificateurs parmi des milliers de patients (avec des degrés de liberté suffisants). Dans ce contexte, ses arguments sont insensés.

Il est également sujet aux superlatifs (ce n'est pas bon signe dans aucun contexte) et fait des généralisations non prises en charge, par exemple, les coûts ne peuvent pas être connus. En médecine, certains coûts sont acceptés, comme une valeur prédictive positive de 10% pour les tests de dépistage et 100 000 $ par année de vie ajustée en fonction de la qualité pour les interventions thérapeutiques. J'ai du mal à croire qu'en notation de crédit, les coûts ne sont pas bien compris au départ. S'il dit (peu clairement) que différents faux positifs et faux négatifs individuels ont des coûts différents, alors que c'est un sujet très intéressant, il ne ressemble pas classificateurs binaires.

Si son argument est que la forme ROC est importante, alors pour les utilisateurs sophistiqués, c'est évident, et les utilisateurs non sophistiqués ont bien plus à craindre, par exemple, incorporer la prévalence dans des valeurs prédictives positives et négatives.

Enfin, je n'arrive pas à comprendre comment différents classificateurs ne peuvent pas être jugés sur la base des différents seuils du monde réel déterminés par l'utilisation clinique (ou financière) des modèles. De toute évidence, des seuils différents seraient choisis pour chaque modèle. Les modèles ne seraient pas comparés uniquement sur la base des ASC. Les classificateurs n'ont pas d'importance, mais la forme de la courbe le fait.

user162905
la source
-1

Pour moi, l'essentiel est que, bien que la statistique C (AUC) puisse être problématique lors de la comparaison de modèles avec différentes variables indépendantes (analogue à ce que Hand appelle les "classificateurs"), elle est toujours utile dans d'autres applications. Par exemple, des études de validation où le même modèle est comparé entre différentes populations d'études (ensembles de données). Si un modèle ou un indice / score de risque s'avère très discriminant dans une population, mais pas dans d'autres, cela pourrait signifier qu'il ne s'agit pas d'un très bon outil en général, mais peut l'être dans des cas spécifiques.

Dave
la source
3
R2