J'utilise actuellement plusieurs classificateurs différents sur diverses entités extraites du texte, et j'utilise la précision / rappel comme résumé de la performance de chaque classificateur distinct dans un ensemble de données donné.
Je me demande s'il existe un moyen significatif de comparer les performances de ces classificateurs de manière similaire, mais qui prend également en compte le nombre total de chaque entité dans les données de test qui sont classées?
Actuellement, j'utilise la précision / le rappel comme mesure des performances, il pourrait donc y avoir quelque chose comme:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Cependant, l'ensemble de données sur lequel je les exécute peut contenir 100 000 personnes, 5 000 entreprises, 500 fromages et 1 œuf.
Y a-t-il donc une statistique récapitulative que je peux ajouter au tableau ci-dessus qui prend également en compte le nombre total de chaque article? Ou existe-t-il un moyen de mesurer le fait que, par exemple, 100% prec / rec sur le classificateur d'oeufs pourrait ne pas être significatif avec un seul élément de données?
Disons que nous avions des centaines de ces classificateurs, je suppose que je cherche un bon moyen de répondre à des questions telles que "Quels classificateurs sont sous-performants? Quels classificateurs manquent de données de test suffisantes pour dire s'ils sont sous-performants?".
la source
Réponses:
Vous devez regarder l'intervalle de confiance de la statistique. Cela permet de mesurer le degré d'incertitude de la statistique, qui est largement fonction de la taille de l'échantillon.
la source
À mon avis, il est difficile de comparer les performances quand il y a une si grande différence de taille. Sur ce lien, (veuillez le vérifier ici dans Wikipedia http://en.wikipedia.org/wiki/Effect_size ), vous pouvez voir différentes stratégies.
Celui que je propose est lié à la variance. Par exemple, considérez les performances du classificateur (100%) et du classificateur de personne (65%). L'erreur minimale que vous commettez avec l'ancien classificateur est de 100%. Cependant, l'erreur minimale que vous pouvez commettre avec ce dernier classificateur est 10e-5.
Donc, une façon de comparer le classificateur est d'avoir à l'esprit cette règle de trois ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) où vous pouvez comparer les performances et sa variabilité.
Une autre possibilité est la mesure F qui est une combinaison de précision et de rappel et qui est en quelque sorte indépendante de la taille de l'effet.
la source
Le nombre de données dans la classe est parfois appelé
support
le classificateur. Il indique à quel point vous pouvez faire confiance à votre résultat, comme une valeur p vous permettrait de faire confiance ou de vous méfier d'un test.Une approche que vous pouvez utiliser consiste à calculer plusieurs mesures de performance du classifieur, non seulement la précision et le rappel, mais aussi le vrai taux positif, le taux faux positif, la spécificité, la sensibilité, la probabilité positive, la probabilité négative, etc. et voir si elles sont cohérentes entre elles. . Si l'une des mesures atteint son maximum (100%) et que l'autre ne le fait pas, cela indique souvent, selon mon expérience, que quelque chose s'est mal passé (par exemple, mauvais support, classificateur trivial, classificateur biaisé, etc.). Voir ceci pour une liste des mesures de performance du classificateur.
la source