La précision est définie comme:
p = true positives / (true positives + false positives)
Est - il exact que, true positives
et false positives
approche 0, la précision approche 1?
Même question pour rappel:
r = true positives / (true positives + false negatives)
J'implémente actuellement un test statistique où j'ai besoin de calculer ces valeurs, et parfois il arrive que le dénominateur soit 0, et je me demande quelle valeur retourner pour ce cas.
PS: Excusez la balise inappropriée, je voulais l'utiliser recall
, precision
et limit
, mais je ne peux pas encore créer de nouvelles balises.
precision-recall
data-visualization
logarithm
references
r
networks
data-visualization
standard-deviation
probability
binomial
negative-binomial
r
categorical-data
aggregation
plyr
survival
python
regression
r
t-test
bayesian
logistic
data-transformation
confidence-interval
t-test
interpretation
distributions
data-visualization
pca
genetics
r
finance
maximum
probability
standard-deviation
probability
r
information-theory
references
computational-statistics
computing
references
engineering-statistics
t-test
hypothesis-testing
independence
definition
r
censoring
negative-binomial
poisson-distribution
variance
mixed-model
correlation
intraclass-correlation
aggregation
interpretation
effect-size
hypothesis-testing
goodness-of-fit
normality-assumption
small-sample
distributions
regression
normality-assumption
t-test
anova
confidence-interval
z-statistic
finance
hypothesis-testing
mean
model-selection
information-geometry
bayesian
frequentist
terminology
type-i-and-ii-errors
cross-validation
smoothing
splines
data-transformation
normality-assumption
variance-stabilizing
r
spss
stata
python
correlation
logistic
logit
link-function
regression
predictor
pca
factor-analysis
r
bayesian
maximum-likelihood
mcmc
conditional-probability
statistical-significance
chi-squared
proportion
estimation
error
shrinkage
application
steins-phenomenon
Björn Pollex
la source
la source
Réponses:
Étant donné une matrice de confusion:
nous savons que:
Considérons les cas où le dénominateur est nul:
la source
La réponse est oui. Les cas de bord indéfinis se produisent lorsque les vrais positifs (TP) sont à 0 car c'est dans le dénominateur des deux P & R. Dans ce cas,
Il s'agit d'une reformulation du commentaire de @ mbq.
la source
Je connais différentes terminologies. Ce que vous appelez la précision serait une valeur prédictive positive (PPV). Et ce que vous appelez rappel, j'appellerais la sensibilité (Sens). :
http://en.wikipedia.org/wiki/Receiver_operating_characteristic
Dans le cas de la sensibilité (rappel), si le dénominateur est nul (comme le souligne Amro), il n'y a PAS de cas positifs, donc la classification n'a pas de sens. (Cela n'empêche pas TP ou FN d'être nul, ce qui entraînerait une sensibilité limite de 1 ou 0. Ces points sont respectivement dans les coins supérieurs droit et inférieur gauche de la courbe ROC - TPR = 1 et TPR = 0. )
La limite de PPV est cependant significative. Il est possible que la coupure du test soit réglée à un niveau si élevé (ou bas) de sorte que tous les cas soient prédits comme négatifs. C'est à l'origine de la courbe ROC. La valeur limite du PPV juste avant que la coupure n'atteigne l'origine peut être estimée en considérant le dernier segment de la courbe ROC juste avant l'origine. (Cela peut être préférable de modéliser car les courbes ROC sont notoirement bruyantes.)
Par exemple, s'il y a 100 positifs réels et 100 négatifs réels et que le segment final de la courbe ROC s'approche de TPR = 0,08, FPR = 0,02, alors le PPV limite serait PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8 soit 80% de probabilité d'être un vrai positif.
En pratique, chaque échantillon est représenté par un segment sur la courbe ROC - horizontal pour un réel négatif et vertical pour un réel positif. On pourrait estimer la PPV limite par le tout dernier segment avant l'origine, mais cela donnerait une PPV limite estimée de 1, 0 ou 0,5, selon que le dernier échantillon était un vrai positif, un faux positif (négatif réel) ou fait d'un TP et FP égal. Une approche de modélisation serait préférable, en supposant peut-être que les données sont binormales - une hypothèse courante, par exemple: http://mdm.sagepub.com/content/8/3/197.short
la source
Cela dépend de ce que vous entendez par "approche 0". Si les faux positifs et les faux négatifs approchent tous les deux de zéro à un rythme plus rapide que les vrais positifs, alors oui aux deux questions. Mais sinon, pas nécessairement.
la source