La f-mesure est-elle synonyme de précision?

Je comprends que la f-mesure (basée sur la précision et le rappel) est une estimation de la précision d'un classificateur. De plus, la mesure f est préférée à la précision lorsque nous avons un ensemble de données déséquilibré. J'ai une question simple (qui concerne plus l'utilisation d'une terminologie correcte que la technologie). J'ai un ensemble de données déséquilibré et j'utilise la mesure f dans mes expériences. Je suis sur le point d'écrire un article qui n'est PAS destiné à une conférence d'apprentissage automatique / d'exploration de données. Par conséquent, puis-je me référer à f-mesure comme synonyme de précision dans ce contexte. Par exemple, j'ai une f-mesure de 0,82, puis-je dire que mon classificateur réalise des prédictions précises à 82%?

machine-learning classification data-mining unbalanced-classes accuracy Annamalai N
la source

Il serait préférable d'introduire la f-mesure si vous l'utilisez. Substituer les deux n'est pas correct à mon point de vue. Dans votre cas, si votre précision est de 99%, vous obtiendrez des prédictions précises à 99%, peu importe votre f-mesure, et cela pourrait conduire les lecteurs à des erreurs.

AdrienNK

@AdrienNK: une précision de 99% n'implique pas des prédictions correctes à 99% sauf si les fréquences relatives des cas de test sont les mêmes que dans la situation réelle de l'application.

cbeleites mécontents de SX

@cbeleites vous avez raison, je sais, mais souvent les cas de test proviennent de la même distribution (enfin c'est peut-être l'opinion biaisée que j'en ai parce que j'ai rarement eu à travailler avec des données sur lesquelles ce n'était pas le cas)

AdrienNK

@AdrienNK: Je suis un chimiste analytique travaillant sur les diagnostics médicaux. La prévalence de la maladie en question peut varier d'environ un ordre de grandeur entre les différentes sous-populations de patients. Voir par exemple la discussion des différents PPV dans la seconde moitié de cet article: nature.com/news/2011/110323/full/471428a.html

cbeleites mécontents de SX

C'était une lecture fascinante, merci d'avoir porté cela à mon attention.

AdrienNK

Réponses:

Tout d'abord, je trouve la «précision» parfois un peu trompeuse, car elle se réfère à des choses distinctes:

Le terme précision en généal pour évaluer des systèmes ou des méthodes (je suis chimiste analytique) fait référence au biais des prédictions, c'est-à-dire qu'il répond à la question de savoir comment les bonnes prédictions sont en moyenne.

Comme vous le savez, il existe de nombreuses mesures de performances différentes qui répondent à différents aspects des performances des classificateurs. Il se trouve que l'un d'eux est également appelé précision. Si votre article n'est pas destiné à un public de machine learning / classification, je vous recommande de clarifier cette distinction. Même pour cette signification plus précise de la précision, je serais très explicite sur ce que j'appelle la précision, car là encore, plusieurs façons de traiter le déséquilibre de classe peuvent se produire. En règle générale, le déséquilibre de classe est ignoré, ce qui conduit au calcul bien connu . Cependant, vous pouvez également utiliser la moyenne de sensibilité et de spécificité, ce qui revient à contrôler le déséquilibre de classe en pondérant votre moyenne. $\frac{TP+TN}{all~cases}$

Le score F est souvent introduit comme moyen harmonique de précision et de rappel (ou valeur prédictive positive et sensibilité). Pour votre question, je pense qu'il est utile de préciser cela un peu plus et de le simplifier:

$F = \frac{2 \cdot precision \cdot recall}{precision + recall} = \frac{2 \frac{TP}{all~P} \frac{TP}{all T}}{\frac{TP}{all~P} + \frac{TP}{all T}} = \frac{2 \frac{TP^2}{all~P \cdot all T}}{\frac{TP \cdot all~T}{all~P \cdot all T} + \frac{TP \cdot all~P}{all~P \cdot all T}} = \frac{2~TP^2}{TP \cdot all~T + TP \cdot all~P} = \frac{2~TP}{all~T + all~P}$

La dernière expression n'est pas une fraction de tout ce que je peux considérer comme un certain groupe de cas de test. En particulier, un chevauchement (important) entre les cas VRAI et POSITIF est attendu. Cela m'empêcherait d'exprimer un score F sous forme de pourcentage, car ce type implique une proportion de cas. En fait, je pense que je voudrais avertir le lecteur que le F-score n'a pas une telle interprétation.

cbeleites mécontents de SX
la source

plus précisément, il s'agit de la mesure . Le score F peut être généralisé avec un paramètre séparé

F_{1}

$F_1$

qwr

Réponse rapide:

Non, la F-measureformule ne comprend pas de TNfacteur et elle est utile pour récupérer des problèmes ^(doc) .

Ainsi, c'est ( F-measure) la bonne approche pour évaluer les ensembles de données déséquilibrés ou dans le cas des problèmes de récupération au lieu de accuracyet ROC.

Accuracy = (TP+TN) / (TP+FP+FN+TN)

F1_Score = 2*(Recall * Precision) / (Recall + Precision)
# or
F1_Score = 2*TP / (2*TP + FP + FN)

[ REMARQUE ]:

Precision = TP / (TP+FP)

Recall = TP / (TP+FN)

Benyamin Jafari
la source