F1 / Dice-Score vs IoU

24

J'étais confus quant aux différences entre le score F1, le score Dice et IoU (intersection sur l'union). À ce jour, j'ai découvert que F1 et Dice signifient la même chose (non?) Et IoU a une formule très similaire aux deux autres.

  • F1 / Dés:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

Y a-t-il des différences pratiques ou d'autres choses à noter, sauf que F1 pondère les vrais positifs plus haut? Y a-t-il une situation où j'utiliserais l'un mais pas l'autre?

pietz
la source
Apparemment, le coefficient de Jaccard est également le même que IoU
pietz
Je serais particulièrement intéressé si certaines de ces mesures (maintenant 4) ne sont destinées qu'aux données binaires.
pietz

Réponses:

38

Vous êtes sur la bonne voie.

F/2jeoUF

jeoU/F=1/2+jeoU/2

Mais il y a une déclaration plus forte qui peut être faite pour l'application typique de la classification à l'apprentissage automatique. Pour toute "vérité fondamentale" fixe, les deux métriques sont toujours positivement corrélées. C'est-à-dire que si le classificateur A est meilleur que B sous une métrique, c'est aussi mieux que le classificateur B sous l'autre métrique.

Il est alors tentant de conclure que les deux métriques sont fonctionnellement équivalentes donc le choix entre elles est arbitraire, mais pas si rapide! Le problème survient lorsque l'on prend le score moyen sur un ensemble d'inférences . Ensuite, la différence apparaît lorsque l'on quantifie à quel point le classificateur B est pire que A pour un cas donné.

En général, la métrique IoU tend à pénaliser les instances individuelles de mauvaise classification plus que le score F, même si elles peuvent toutes deux convenir que cette instance est mauvaise. De la même manière que L2 peut pénaliser davantage les erreurs les plus importantes que L1, la métrique IoU a tendance à avoir un effet "quadratique" sur les erreurs par rapport au score F. Ainsi, le score F tend à mesurer quelque chose de plus proche de la performance moyenne, tandis que le score IoU mesure quelque chose de plus proche de la pire performance.

Supposons par exemple que la grande majorité des inférences soient modérément meilleures avec le classificateur A que B, mais certaines d'entre elles sont nettement pires en utilisant le classificateur A. Il se peut alors que la métrique F favorise le classificateur A tandis que la métrique IoU favorise classificateur B.

Certes, ces deux mesures se ressemblent beaucoup plus qu'elles ne sont différentes. Mais tous deux souffrent d'un autre inconvénient du point de vue de la prise de moyennes de ces scores sur de nombreuses inférences: ils surestiment tous deux l'importance des ensembles avec peu ou pas d'ensembles positifs réels. Dans l'exemple courant de segmentation d'image, si une image n'a qu'un seul pixel d'une classe détectable et que le classificateur détecte ce pixel et un autre pixel, son score F est de 2/3 et l'IoU est encore pire à 1 / 2. Des erreurs triviales comme celles-ci peuvent sérieusement dominer le score moyen pris sur un ensemble d'images. En bref, il pondère chaque erreur de pixel de manière inversement proportionnelle à la taille de l'ensemble sélectionné / pertinent plutôt que de les traiter de manière égale.

c0c1

willem
la source
willem, je n'aurais pas pu rêver mieux. merci beaucoup d'avoir pris le temps.
pietz
5
J'ai essayé votre approche de l'erreur totale et je voulais juste ajouter qu'elle ne fonctionne pas bien avec des déséquilibres constants entre les positifs et les négatifs. Imaginez un ensemble complet de données d'images où un seul pixel constitue la segmentation de la vérité au sol. Les réseaux de neurones peuvent apprendre assez rapidement qu'une prédiction vide est toujours précise à 99,9% en utilisant l'erreur totale. En allant avec IoU ou DSC, nous poussons le réseau à trouver une segmentation pour les mêmes raisons que celles mentionnées ci-dessus. Donc, à la fin, cela dépend du problème.
pietz
1
Quelqu'un peut-il m'aider à concilier les deux déclarations suivantes?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."et 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Matt Kleinsmith
1
Le premier fait référence à un score d'une seule inférence, et le second fait référence à un score moyen sur un ensemble d'inférences (par exemple un ensemble d'images).
willem