Intuitivement, obtenir un P / R / F1 élevé sur un petit ensemble de données ou sur un ensemble de données très uniforme / prévisible est probablement plus facile que d'obtenir un P / R / F1 élevé sur des ensembles de données plus grands ou plus chaotiques. Par conséquent, une amélioration de P / R / F1 sur un ensemble de données plus grand et plus chaotique est plus significative.
Suite à cette intuition, vous auriez probablement besoin d'accéder à la sortie des méthodes "boîte noire" afin de mesurer la différence dans la distribution des résultats, tout en tenant compte de la taille et de la variété de cet ensemble. Les P / R / F1 seuls sont probablement trop peu d'informations.
Les tests de signification dans ce paramètre sont généralement effectués en formant une hypothèse nulle (les deux algorithmes produisent toujours la même sortie), puis en calculant la probabilité d'observer la différence de sortie que vous observez si les algorithmes étaient effectivement les mêmes. Si la probabilité est inférieure à 0,05 par exemple, vous rejetez l'hypothèse nulle et concluez que l'amélioration est significative.
Ce document a des discussions pertinentes:
http://www.aclweb.org/anthology/C00-2137