Étant donné les taux de vrais positifs, de faux négatifs, pouvez-vous calculer les faux positifs, les vrais négatifs?

24

J'ai des valeurs pour True Positive (TP)et False Negative (FN)comme suit:

TP = 0.25
FN = 0.75

À partir de ces valeurs, pouvons-nous calculer False Positive (FP)et True Negative (TN)?

Simplicité
la source

Réponses:

53

Il y a pas mal de confusion terminologique dans ce domaine. Personnellement, je trouve toujours utile de revenir sur une matrice de confusion pour y penser. Dans un test de classification / dépistage, vous pouvez avoir quatre situations différentes:

                      Condition: A        Not A

  Test says “A”       True positive   |   False positive
                      ----------------------------------
  Test says “Not A”   False negative  |    True negative

Dans ce tableau, «vrai positif», «faux négatif», «faux positif» et «vrai négatif» sont des événements (ou leur probabilité). Vous avez donc probablement un vrai taux positif et un taux faussement négatif . La distinction est importante car elle souligne que les deux nombres ont un numérateur et un dénominateur.

Là où les choses deviennent un peu confuses, vous pouvez trouver plusieurs définitions de «taux de faux positifs» et de «taux de faux négatifs», avec différents dénominateurs.

Par exemple, Wikipedia fournit les définitions suivantes (elles semblent assez standard):

  • Vrai taux positif (ou sensibilité):TPR=TP/(TP+FN)
  • Taux de faux positifs:FPR=FP/(FP+TN)
  • Vrai taux négatif (ou spécificité):TNR=TN/(FP+TN)

Dans tous les cas, le dénominateur est le total de la colonne . Cela donne également un indice à leur interprétation: le vrai taux positif est la probabilité que le test dise «A» lorsque la valeur réelle est bien A (c'est-à-dire qu'il s'agit d'une probabilité conditionnelle, conditionnée par A étant vraie). Cela ne pas vous dire à quel point vous êtes susceptible d'être correct lorsque vous appelez « A » (c. -à- la probabilité d'un vrai positif, conditionnée par le résultat du test étant « A »).

En supposant que le taux de faux négatifs est défini de la même manière, nous avons alors (notez que vos chiffres sont cohérents avec cela). Nous ne pouvons cependant pas directement déduire le taux de faux positifs des taux véritablement positifs ou faux négatifs car ils ne fournissent aucune information sur la spécificité, c'est-à-dire comment le test se comporte lorsque «non A» est la bonne réponse. La réponse à votre question serait donc «non, ce n'est pas possible» car vous n'avez aucune information sur la colonne de droite de la matrice de confusion.FNR=1-TPR

Il existe cependant d'autres définitions dans la littérature. Par exemple, Fleiss ( Méthodes statistiques pour les taux et les proportions ) offre ce qui suit:

  • «[…] Le taux de faux positifs […] est la proportion de personnes, parmi celles qui répondent positives, qui sont réellement indemnes de la maladie.»
  • «Le taux de faux négatifs […] est la proportion de personnes, parmi celles qui ont répondu négativement au test, qui ont néanmoins la maladie.»

(Il reconnaît également les définitions précédentes mais les considère comme «un gaspillage de terminologie précieuse», précisément parce qu'elles ont une relation simple avec sensibilité et spécificité.)

En se référant à la matrice de confusion, cela signifie que et donc les dénominateurs sont les totaux des lignes . Fait important, selon ces définitions, les taux de faux positifs et de faux négatifs ne peuvent pas être directement dérivés de la sensibilité et de la spécificité du test. Vous devez également connaître la prévalence (c.-à-d. La fréquence de A dans la population d'intérêt).F N R = F N / ( T N + F N )FPR=FP/(TP+FP)FNR=FN/(TN+FN)

Fleiss n'utilise ni ne définit les expressions «taux vraiment négatif» ou «taux positif réel», mais si nous supposons qu'il s'agit également de probabilités conditionnelles pour un résultat ou une classification de test particulier, la réponse @ guill11aume est la bonne.

Dans tous les cas, vous devez faire attention aux définitions car il n'y a pas de réponse incontestable à votre question.

Gala
la source
4
Très bien (+1). J'ai immédiatement sauté sur une interprétation, mais vous avez tout à fait raison de dire que la définition alternative est standard.
gui11aume
1
@ gui11aume. Merci! C'était mon sentiment mais en y réfléchissant, je n'en suis plus si sûr. En regardant les références, cela peut dépendre du domaine (apprentissage automatique vs tests médicaux).
Gala
Mon expérience est que cette dernière définition, TPR = TP / (TP + FP), FPR = FP / (TP + FP) est plus standard.
travellingbones
1
Voici une publication sur les différences: link.springer.com/article/10.1007/s10899-006-9025-5#enumeration Notez la nouvelle terminologie "Test FPR" vs. "Predictive FPR"
travellingbones
8

EDIT: voir la réponse de Gaël Laurans, qui est plus précise.

Si votre taux positif réel est de 0,25, cela signifie que chaque fois que vous appelez un positif, vous avez une probabilité de 0,75 de se tromper. Ceci est votre taux de faux positifs. De même, chaque fois que vous appelez un négatif, vous avez une probabilité de 0,25 d'avoir raison, ce qui est votre véritable taux négatif.

gui11aume
la source
Cela dépend de ce que l'on essaie de caractériser: le test dans le cadre de la connaissance préalable de la vérité, ou la décision de décider de la probabilité post-test juste en fonction des résultats en main.
kd4ttc
3

Aucune si cela a un sens si "positif" et "négatif" n'ont pas de sens pour le problème en question. Je vois de nombreux problèmes où «positif» et «négatif» sont des choix forcés arbitraires sur une variable ordinale ou continue. FP, TP, sens, spec ne sont utiles que pour les phénomènes tout ou rien.

Frank Harrell
la source