Relation entre KS, AUROC et Gini

11

Les statistiques de validation de modèle communes comme le test de Kolmogorov – Smirnov (KS), l' AUROC et le coefficient de Gini sont tous fonctionnellement liés. Cependant, ma question concerne la preuve de la manière dont ces éléments sont tous liés. Je suis curieux de savoir si quelqu'un peut m'aider à prouver ces relations. Je n'ai rien trouvé en ligne, mais je suis vraiment intéressé par le fonctionnement des épreuves. Par exemple, je connais Gini = 2AUROC-1, mais ma meilleure preuve consiste à pointer un graphique. Je suis intéressé par les preuves formelles. Toute aide serait grandement appréciée!

Steven
la source
1
Par KS, voulez-vous dire la statistique de Kolmogorov-Smirnov? AUROC est probablement la zone sous la courbe ROC?
Nitesh
On dirait que partir de Wikipédia et parcourir les références originales serait un bon point de départ.
LauriK

Réponses:

1

L'entrée Wikipedia pour la caractéristique de fonctionnement du récepteur fait référence à cet article pour le résultat Gini = 2AUROC-1: Hand, David J .; et Till, Robert J. (2001); Une simple généralisation de l'aire sous la courbe ROC pour les problèmes de classification de plusieurs classes, Machine Learning, 45, 171–186. Mais je crains de ne pas y avoir accès facilement pour voir à quel point cela se rapproche de ce que vous voulez.

nealmcb
la source
1
... et cela peut être un résultat inutile, car le Gini est généralement appliqué aux données qui ont deux étiquetages catégoriels, tandis que l'AUROC est appliqué aux données de classement numérique + une étiquette binaire. Ils peuvent coïncider uniquement si votre classement est binaire? dans ce cas, cela n'aurait pas beaucoup de sens d'utiliser AUROC du tout car c'est une courbe à 3 points avec seulement 2 degrés de liberté ... (Je n'ai pas vérifié ce résultat, trop de spam papier sur Wikipédia de nos jours.)
Has QUIT - Anony-Mousse
0

Selon l' article (Adeodato, PJ L et Melo, SB 2016), il existe une relation linéaire entre l'aire sous la courbe KS (AUKS) et l'aire sous la courbe ROC (AUROC), à savoir:

AUROC=0.5+AUKS

Une preuve d'équivalence est incluse dans le document.

ntzortzis
la source
0

Le résultat Gini = 2 * AUROC-1 est difficile à prouver car il n'est pas nécessairement vrai. L'article de Wikipedia sur la courbe des caractéristiques de fonctionnement du récepteur donne le résultat comme définition de Gini, et l'article de Hand et Till (cité par nealmcb) dit simplement que la définition graphique de Gini en utilisant la courbe ROC conduit à cette formule.

Le hic, c'est que cette définition de Gini est utilisée dans les communautés d'apprentissage automatique et d'ingénierie, mais une définition différente est utilisée par les économistes et les démographes (pour revenir à l'article original de Gini). L'article de Wikipédia sur le coefficient de Gini présente cette définition, basée sur la courbe de Lorenz.

Un article de Schechtman & Schechtman (2016) expose la relation entre l'AUC et la définition originale de Gini. Mais pour voir qu'ils ne peuvent pas être exactement les mêmes, supposons que la proportion d'événements soit p et que nous ayons un classificateur parfait. La courbe ROC passe ensuite dans le coin supérieur gauche et AUCROC est 1. Cependant, la courbe de Lorenz (inversée) va de (0,0) à ( p , 1) à (1,1) et le Gini des économistes est 1 - p / 2, qui est presque mais pas exactement 1.

Si les événements sont rares, alors la relation Gini = 2 * AUROC-1 est presque mais pas exactement vraie en utilisant la définition originale de Gini. La relation n'est vraie que si Gini est redéfini pour le rendre vrai.

PaulVD
la source