Connexions entre (d-prime) et AUC (Area Under the ROC Curve); hypothèses sous-jacentes

13

Dans l'apprentissage automatique, nous pouvons utiliser l' aire sous la courbe ROC (souvent abrégée AUC ou AUROC) pour résumer la capacité d'un système à discriminer entre deux catégories. Dans la théorie de la détection du signal, le (indice de sensibilité) est souvent utilisé dans un but similaire. Les deux sont étroitement liés, et je pense qu'ils sont équivalents si certaines hypothèses sont satisfaites .d

Le calcul est généralement présenté sur la base de l'hypothèse de distributions normales pour les distributions de signaux (voir le lien wikipedia ci-dessus, par exemple). Le calcul de la courbe ROC ne fait pas cette hypothèse: il est applicable à tout classificateur qui produit un critère de décision à valeur continue pouvant être seuillé.d

Wikipedia dit que est équivalent à . Cela semble correct si les hypothèses des deux sont satisfaites; mais si les hypothèses ne sont pas les mêmes, ce n'est pas une vérité universelle.d2AUC1

Est-il juste de qualifier la différence d'hypothèses de "AUC fait moins d'hypothèses sur les distributions sous-jacentes"? Ou est en fait tout aussi largement applicable que l' ASC, mais il est juste pratique courante que les personnes utilisant ont tendance à utiliser le calcul qui suppose des distributions normales? Y a-t-il d'autres différences dans les hypothèses sous-jacentes que j'ai manquées?dd

Dan Stowell
la source

Réponses:

7

Non. La valeur maximale de l'AUC est de 1. n'a pas de maximum.

Je crois que d est égal à qnorm (AUC) * sqrt (2) (ma mémoire d'un vieux livre de statistiques que je ne trouve pas pour le moment mais semble vérifier par rapport à certaines données que j'ai trouvées sur le web). Ici qnorm (x) est la "fonction quantile pour la distribution normale" (R-parler). Autrement dit, il renvoie la valeur de la distribution normale pour laquelle x proportion de la distribution est inférieure à celle-ci.

Joel Lachter
la source
2
Merci, cela me semble correct - cependant, seulement si nous supposons que les distributions sont normales (à cause de l'utilisation de qnorm ()). J'ai corrigé le libellé de wikipedia.
Dan Stowell