Pourquoi utiliser le score de Gini normalisé au lieu de l'ASC comme évaluation?

14

La compétition de Kaggle La prévision de conducteur sûr de Porto Seguro utilise le score de Gini normalisé comme métrique d'évaluation, ce qui m'a rendu curieux des raisons de ce choix. Quels sont les avantages de l'utilisation du score de Gini normalisé au lieu des mesures les plus courantes, comme l'ASC, pour l'évaluation?

xboard
la source
1
Le site Web de Kaggle avait cette réponse: "Il existe une zone maximale réalisable pour un modèle" parfait "car tous les exemples positifs ne se produisent pas immédiatement. Nous utilisons le coefficient de Gini normalisé en divisant le coefficient de Gini de votre modèle par le coefficient de Gini du modèle parfait. " mais il n'est plus disponible. webcache.googleusercontent.com/…
Sextus Empiricus
1
Donc, gini est juste auc à une échelle différente. Ou est-ce que auc et gini sont appliqués à différentes courbes? Ce n'est pas clair pour moi en tant que non-expert en apprentissage automatique. La question n'est pas très claire à ce sujet.
Sextus Empiricus

Réponses:

3

Je crois que le score de Gini est simplement une reformulation de l'ASC: Quant à pourquoi utiliser cela au lieu de l'ASC couramment utilisé, la seule raison pour laquelle je peux penser est qu'une prédiction aléatoire donnera un Gini score de 0 par rapport à l'AUC qui sera de 0,5.

gjenje=2×UNEUC-1
Miguel
la source
6
Outre que l'utilisation du coefficient de gini définit les performances d'un classificateur aléatoire à un score de 0 ... la normalisation "améliore" l'autre extrémité de l'échelle et fait que le score d'un classificateur parfait est égal à 1 plutôt qu'à un maximum atteignable ASC <1. L'amélioration n'étant que relative selon que vous pensez qu'une échelle plus intuitive est bonne ou non. Bien qu'au-delà de cette interprétation plus facile, vous pourriez affirmer qu'elle (la normalisation) améliore également la généralisation et la comparaison des différents ensembles de données.
Sextus Empiricus
Pourquoi l'ASC macimum réalisable devrait-il être inférieur à 1, je ne vois pas non plus comment Gini le met à 1?
rep_ho
Cela dépend de quel type de courbe ils calculent le coefficient de Gini. Peut-être qu'ils utilisent quelque chose de différent d'une courbe ROC (dont l'ASC max serait en effet de 1). Compte tenu des mots sur le site Web de Kaggle, il semble plausible que l'ASC max ne soit pas de 1:> "Nous nous déplaçons ensuite de gauche à droite, en demandant" Dans le x% le plus à gauche des données, quelle proportion de la réponse cumulative avez-vous accumulée? "
Sextus Empiricus du
exemple: bayesserver.com/docs/charts/lift-chart
Sextus Empiricus