Choisir entre les fonctions de perte pour la classification binaire

18

Je travaille dans un domaine problématique où les gens rapportent souvent ROC-AUC ou AveP (précision moyenne). Cependant, j'ai récemment trouvé des documents qui optimisent la perte de journal à la place, tandis que d'autres encore signalent une perte de charnière .

Bien que je comprenne comment ces mesures sont calculées, j'ai du mal à comprendre les compromis entre elles et ce qui est bon pour quoi exactement.

En ce qui concerne ROC-AUC vs Precision-Recall, ce fil discute comment la maximisation de ROC-AUC peut être considérée comme utilisant un critère d'optimisation de perte qui pénalise "le classement d'un vrai négatif au moins aussi grand qu'un vrai positif" (en supposant que plus élevé les scores correspondent aux positifs). En outre, cet autre fil fournit également une discussion utile sur ROC-AUC contrairement aux métriques de précision-rappel .

Cependant, pour quel type de problèmes la perte de journal serait-elle préférée à, disons, ROC-AUC , AveP ou la perte de charnière ? Plus important encore, quels types de questions faut-il poser sur le problème lors du choix entre ces fonctions de perte pour la classification binaire?

Josh
la source

Réponses:

8

La référence de pointe en la matière est [1]. Essentiellement, cela montre que toutes les fonctions de perte que vous spécifiez convergeront vers le classificateur Bayes, avec des taux rapides.

Le choix entre ceux-ci pour les échantillons finis peut être motivé par plusieurs arguments différents:

  1. Si vous souhaitez récupérer des probabilités d'événement (et pas seulement des classifications), alors le log-loss logistique, ou tout autre modèle linéaire généralisé (régression Probit, régression log-log complémentaire, ...) est un candidat naturel.
  2. Si vous ne visez que la classification, SVM peut être un choix préféré, car il ne cible que les observations au niveau de la classification buondaire et ignore les observations à distance, atténuant ainsi l'impact de la véracité du modèle linéaire supposé.
  3. Si vous n'avez pas beaucoup d'observations, l'avantage en 2 peut être un inconvénient.
  4. Il peut y avoir des différences de calcul: à la fois dans le problème d'optimisation indiqué et dans l'implémentation particulière que vous utilisez.
  5. En bout de ligne, vous pouvez simplement les essayer tous et choisir le meilleur interprète.

[1] Bartlett, Peter L, Michael I Jordan et Jon D McAuliffe. «Convexity, Classification, and Risk Bounds.» Journal de l'American Statistical Association 101, no. 473 (mars 2006): 138–56. doi: 10.1198 / 016214505000000907.

JohnRos
la source