Existe-t-il une méthode standard pour déterminer un point de fonctionnement "optimal" sur une courbe de rappel de précision ? (c.-à-d. déterminer le point de la courbe qui offre un bon compromis entre précision et rappel)
Merci
la source
Existe-t-il une méthode standard pour déterminer un point de fonctionnement "optimal" sur une courbe de rappel de précision ? (c.-à-d. déterminer le point de la courbe qui offre un bon compromis entre précision et rappel)
Merci
La définition de "optimal" dépendra bien sûr de vos objectifs spécifiques, mais voici quelques méthodes relativement "standard":
Point de taux d'erreur égal (EER): le point où la précision est égale au rappel. Pour certains, cela ressemble à un point de fonctionnement "naturel".
Une version raffinée et plus fondée sur les principes de ce qui précède consiste à spécifier le coût des différents types d'erreurs et à optimiser ce coût. Supposons qu'une classification erronée d'un article (une erreur de précision) coûte deux fois plus cher qu'un article manquant complètement (erreur de rappel). Le meilleur point de fonctionnement est alors celui où (1 - rappel) = 2 * (1 - précision).
Dans certains problèmes, les gens ont un taux naturel minimal acceptable de précision ou de rappel. Supposons que si plus de 20% des données récupérées sont incorrectes, les utilisateurs cesseront d'utiliser votre application. Ensuite, il est naturel de régler la précision à 80% (ou un peu plus bas) et d'accepter tout rappel que vous avez à ce stade.
Suivi des deuxième et troisième puces de SheldonCooper: Le choix idéal est de demander à quelqu'un d'autre de faire le choix, sous la forme d'un seuil (point 3) ou d'un compromis coût-avantage (point 2). Et peut-être que la meilleure façon de leur offrir le choix est avec une courbe ROC .
Je ne sais pas à quel point c'est "standard", mais une façon serait de choisir le point le plus proche de (1, 1) - c'est-à-dire 100% de rappel et 100% de précision. Ce serait l'équilibre optimal entre les deux mesures. Cela suppose que vous n'évaluez pas la précision par rapport au rappel ou vice-versa.