Mesure de performance du classificateur qui combine sensibilité et spécificité?

9

J'ai des données étiquetées à 2 classes sur lesquelles j'effectue une classification à l'aide de plusieurs classificateurs. Et les ensembles de données sont bien équilibrés. Lors de l'évaluation des performances des classificateurs, je dois prendre en compte la précision du classificateur pour déterminer non seulement les vrais positifs, mais aussi les vrais négatifs. Par conséquent, si j'utilise la précision et si le classificateur est biaisé vers les positifs et classe tout comme positif, j'obtiendrai une précision d'environ 50%, même s'il n'a pas réussi à classer les vrais négatifs. Cette propriété est étendue à la précision et au rappel car ils se concentrent sur une seule classe, et à leur tour sur le score F1. (C'est ce que je comprends même de cet article, par exemple " Au-delà de la précision, du score F et du ROC: une famille de mesures discriminantes pour l'évaluation des performances ").

Par conséquent, je peux utiliser la sensibilité et la spécificité (TPR et TNR) pour voir comment le classificateur a fonctionné pour chaque classe, où je vise à maximiser ces valeurs.

Ma question est que je recherche une mesure qui combine ces deux valeurs en une seule mesure significative . J'ai examiné les mesures prévues dans ce document, mais je les ai trouvées non triviales. Et d'après ma compréhension, je me demandais pourquoi ne pouvons-nous pas appliquer quelque chose comme le F-score, mais au lieu d'utiliser la précision et le rappel, j'utiliserais la sensibilité et la spécificité? La formule serait donc et mon objectif serait de maximiser cette mesure. Je le trouve très représentatif. Existe-t-il déjà une formule similaire? Et cela aurait-il un sens ou est-ce même mathématiquement valable?

my Performance Measure=2sensitivityspecificitysensitivity+specificity
Kalaji
la source

Réponses:

1

Je dirais qu'il pourrait ne pas y avoir de mesure particulière ou une seule dont vous devriez tenir compte.

La dernière fois que j'ai fait une classification probabiliste, j'avais un package R ROCR et des valeurs de coût explicites pour les faux positifs et les faux négatifs.

J'ai considéré tous les points de coupure de 0 à 1 et j'ai utilisé de nombreuses mesures telles que le coût prévu lors de la sélection de ce point de coupure. Bien sûr, j'avais déjà une mesure AUC pour la mesure générale de la précision de la classification. Mais pour moi, ce n'était pas la seule possibilité.

Les valeurs pour les cas FP et FN doivent sortir de votre modèle particulier, peut-être qu'elles sont fournies par un expert en la matière?

Par exemple, dans l'analyse du taux de désabonnement des clients, il pourrait être plus coûteux de déduire de manière incorrecte que le client ne se désengage pas, mais aussi qu'il sera coûteux de donner une réduction générale des prix des services sans précision pour les cibler sur les groupes corrects.

-Analyste

Analyste
la source
En fait, pour mon cas, c'est un peu similaire. Parce que les cas FP et FN vont coûter cher dans mon modèle. J'ai finalement fini par faire quelque chose de similaire à ce que vous avez suggéré "d'utiliser plusieurs mesures". J'ai calculé le score F pour chaque étiquette de classe et pour évaluer les modèles, j'utilise ces deux valeurs ainsi qu'une fonction de coût qui utilise la précision (pour les deux classes) pour calculer le profit et en soustraire la perte subie dans les cas FP et FN.
Kalaji
3

La précision, la sensibilité, la spécificité de la classification et toute combinaison simple d'entre elles sont toutes des règles de notation incorrectes. Autrement dit, ils sont optimisés par un modèle bidon. Leur utilisation vous fera choisir les mauvaises fonctionnalités, donner les mauvais poids et prendre des décisions sous-optimales. L'une des nombreuses façons dont les décisions sont sous-optimales est la fausse confiance que vous obtenez lorsque les probabilités prédites sont proches du seuil impliqué par l'utilisation de ces mesures. Bref, tout ce qui peut mal tourner va mal avec ces mesures. Les utiliser pour comparer même deux modèles bien ajustés vous induira en erreur.

Frank Harrell
la source
1
Je suis d'accord que tout modèle généré est un "faux modèle" comme vous l'avez mentionné. Mais j'ai encore besoin d'une mesure pour évaluer sa qualité, pour choisir un modèle à terme. En supposant que mes entités ont déjà été sélectionnées (en essayant plusieurs ensembles de données avec différents ensembles d'entités), et j'utilise une validation croisée 5 fois afin de déterminer si mes classificateurs sur-adaptent les données, ces simples "règles de notation" sont les plus largement utilisé dans la littérature. Quelles autres mesures suggéreriez-vous alors? La plupart des mesures reposent sur des combinaisons de ces valeurs, notamment LR +/-, ROC et AUC.
Kalaji
Tout d'abord, prenez-vous soin de répéter toutes les étapes d'exploration / de modélisation à partir de zéro pour chacun des 5 ajustements de modèle utilisés dans le cv 5 fois? La mesure de la qualité de l'étalon-or est la probabilité logarithmique et les quantités qui en dérivent telles que et la déviance. Pour binaire, cela conduit à une règle de notation logarithmique des probabilités. Dans ce cas, vous pouvez également utiliser un autre score approprié, le score de Brier (erreur quadratique moyenne dans les probabilités prédites). YR2Y
Frank Harrell
Sur la base de ma lecture, cela s'applique au cas où mes modèles génèrent des probabilités plutôt que des valeurs discrètes (c'est-à-dire une probabilité qu'une instance appartienne à la classe 0 ou 1 au lieu de générer 0 ou 1). Et à son tour, cela avait à voir avec l'implémentation des classificateurs, par exemple, cela s'applique à un classificateur Naive Bayes mais pas à un classificateur 1-NN. Notez que je n'implémente pas les classificateurs, j'utilise certains classificateurs dans Weka pour générer mes modèles. Je suis peut-être un peu confus ici. Merci.
Kalaji
1
Si la méthode que vous utilisez ne donne pas de probabilités, je suggère de trouver une autre méthode.
Frank Harrell
S'il existe des disparités bien comprises entre le coût réel de la précision et de la sensibilité (ne s'applique pas au message d'origine), pourquoi éviteriez-vous de les utiliser? Une erreur d'entropie croisée biaisée serait-elle préférable (par exemple, la pénalité du terme (1-c) * log (1-p) est doublée)?
Max Candocia