J'ai des données étiquetées à 2 classes sur lesquelles j'effectue une classification à l'aide de plusieurs classificateurs. Et les ensembles de données sont bien équilibrés. Lors de l'évaluation des performances des classificateurs, je dois prendre en compte la précision du classificateur pour déterminer non seulement les vrais positifs, mais aussi les vrais négatifs. Par conséquent, si j'utilise la précision et si le classificateur est biaisé vers les positifs et classe tout comme positif, j'obtiendrai une précision d'environ 50%, même s'il n'a pas réussi à classer les vrais négatifs. Cette propriété est étendue à la précision et au rappel car ils se concentrent sur une seule classe, et à leur tour sur le score F1. (C'est ce que je comprends même de cet article, par exemple " Au-delà de la précision, du score F et du ROC: une famille de mesures discriminantes pour l'évaluation des performances ").
Par conséquent, je peux utiliser la sensibilité et la spécificité (TPR et TNR) pour voir comment le classificateur a fonctionné pour chaque classe, où je vise à maximiser ces valeurs.
Ma question est que je recherche une mesure qui combine ces deux valeurs en une seule mesure significative . J'ai examiné les mesures prévues dans ce document, mais je les ai trouvées non triviales. Et d'après ma compréhension, je me demandais pourquoi ne pouvons-nous pas appliquer quelque chose comme le F-score, mais au lieu d'utiliser la précision et le rappel, j'utiliserais la sensibilité et la spécificité? La formule serait donc et mon objectif serait de maximiser cette mesure. Je le trouve très représentatif. Existe-t-il déjà une formule similaire? Et cela aurait-il un sens ou est-ce même mathématiquement valable?
La précision, la sensibilité, la spécificité de la classification et toute combinaison simple d'entre elles sont toutes des règles de notation incorrectes. Autrement dit, ils sont optimisés par un modèle bidon. Leur utilisation vous fera choisir les mauvaises fonctionnalités, donner les mauvais poids et prendre des décisions sous-optimales. L'une des nombreuses façons dont les décisions sont sous-optimales est la fausse confiance que vous obtenez lorsque les probabilités prédites sont proches du seuil impliqué par l'utilisation de ces mesures. Bref, tout ce qui peut mal tourner va mal avec ces mesures. Les utiliser pour comparer même deux modèles bien ajustés vous induira en erreur.
la source