Pourquoi la mesure F est-elle généralement utilisée pour les tâches de classification (supervisées), alors que la mesure G (ou indice de Fowlkes – Mallows) est généralement utilisée pour les tâches de regroupement (non supervisées)?
La mesure F est la moyenne harmonique de la précision et du rappel .
La mesure G (ou indice de Fowlkes – Mallows) est la moyenne géométrique de la précision et du rappel .
Vous trouverez ci-dessous un graphique des différents moyens.
F1 (harmonique)
Géométrique
Arithmétique
La raison pour laquelle je demande est que je dois décider quelle moyenne utiliser dans une tâche NLG, où j'ai mesuré BLEU et ROUGE (où BLEU est équivalent à la précision et ROUGE à rappeler). Comment dois-je calculer la moyenne de ces scores?
machine-learning
evaluation
scoring
metric
nlg
Bruno Lubascher
la source
la source
Réponses:
Le score Fı est préféré à la précision de la classification simple afin de contrer le problème des ensembles de données déséquilibrés; si la chose que vous recherchez ne se produit que rarement de toute façon, un classificateur naïf peut toujours dire non et semble très bien fonctionner! Une variante de Fı est Fß, où
Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]
Variez ß pour équilibrer précision et rappel. Quant à la raison pour laquelle F ou G, je pense que c'est empirique - vous ne dites pas si vous classez ou regroupez dans votre propre application?
la source
Si la précision et le rappel sont similaires, F1 est une bonne mesure unique pour comparer différents modèles.
Court et doux :)
la source