J'étais confus quant aux différences entre le score F1, le score Dice et IoU (intersection sur l'union). À ce jour, j'ai découvert que F1 et Dice signifient la même chose (non?) Et IoU a une formule très similaire aux deux autres.
- F1 / Dés:
- IoU / Jaccard:
Y a-t-il des différences pratiques ou d'autres choses à noter, sauf que F1 pondère les vrais positifs plus haut? Y a-t-il une situation où j'utiliserais l'un mais pas l'autre?
Réponses:
Vous êtes sur la bonne voie.
Mais il y a une déclaration plus forte qui peut être faite pour l'application typique de la classification à l'apprentissage automatique. Pour toute "vérité fondamentale" fixe, les deux métriques sont toujours positivement corrélées. C'est-à-dire que si le classificateur A est meilleur que B sous une métrique, c'est aussi mieux que le classificateur B sous l'autre métrique.
Il est alors tentant de conclure que les deux métriques sont fonctionnellement équivalentes donc le choix entre elles est arbitraire, mais pas si rapide! Le problème survient lorsque l'on prend le score moyen sur un ensemble d'inférences . Ensuite, la différence apparaît lorsque l'on quantifie à quel point le classificateur B est pire que A pour un cas donné.
En général, la métrique IoU tend à pénaliser les instances individuelles de mauvaise classification plus que le score F, même si elles peuvent toutes deux convenir que cette instance est mauvaise. De la même manière que L2 peut pénaliser davantage les erreurs les plus importantes que L1, la métrique IoU a tendance à avoir un effet "quadratique" sur les erreurs par rapport au score F. Ainsi, le score F tend à mesurer quelque chose de plus proche de la performance moyenne, tandis que le score IoU mesure quelque chose de plus proche de la pire performance.
Supposons par exemple que la grande majorité des inférences soient modérément meilleures avec le classificateur A que B, mais certaines d'entre elles sont nettement pires en utilisant le classificateur A. Il se peut alors que la métrique F favorise le classificateur A tandis que la métrique IoU favorise classificateur B.
Certes, ces deux mesures se ressemblent beaucoup plus qu'elles ne sont différentes. Mais tous deux souffrent d'un autre inconvénient du point de vue de la prise de moyennes de ces scores sur de nombreuses inférences: ils surestiment tous deux l'importance des ensembles avec peu ou pas d'ensembles positifs réels. Dans l'exemple courant de segmentation d'image, si une image n'a qu'un seul pixel d'une classe détectable et que le classificateur détecte ce pixel et un autre pixel, son score F est de 2/3 et l'IoU est encore pire à 1 / 2. Des erreurs triviales comme celles-ci peuvent sérieusement dominer le score moyen pris sur un ensemble d'images. En bref, il pondère chaque erreur de pixel de manière inversement proportionnelle à la taille de l'ensemble sélectionné / pertinent plutôt que de les traiter de manière égale.
la source
"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."
et 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."