Pour une matrice de coûts
L=[010.50]c1c2predictionc1c2truth
la perte de prédire la classe lorsque la vérité est la classe est , et le coût de prédire la classe lorsque la vérité est la classe est . Il n'y a aucun coût pour des prédictions correctes, . Le risque conditionnel pour prédire l'une ou l'autre classe est alorsc 2 L 12 = 0,5 c 2 c 1 L 21 = 1 L 11 = L 22 = 0 R kc1c2L12=0.5c2c1L21=1L11=L22=0Rk
R(c1|x)R(c2|x)=L11Pr(c1|x)+L12Pr(c2|x)=L12Pr(c2|x)=L22Pr(c2|x)+L21Pr(c1|x)=L21Pr(c1|x)
Pour un référence voir ces
notes à la page 15.
Afin de minimiser le risque / la perte, vous prédisez si le coût de l'erreur de le faire (c'est la perte de la mauvaise prédiction multiplié par la probabilité postérieure que la prédiction est fausse ) est inférieur au coût de la prévision erronée de l'alternative,c1L12Pr(c2|x)
L12Pr(c2|x)L12Pr(x|c2)Pr(c2)L12Pr(c2)L21Pr(c1)<L21Pr(c1|x)<L21Pr(x|c1)Pr(c1)<Pr(x|c1)Pr(x|c2)
où la deuxième ligne utilise la règle de Bayes . À probabilités antérieures égales vous obtenez
Pr(c2|x)∝Pr(x|c2)Pr(c2)Pr(c1)=Pr(c2)=0.512<Pr(x|c1)Pr(x|c2)
vous choisissez donc de classer une observation car est le rapport de vraisemblance supérieur à ce seuil. Maintenant, il n'est pas clair pour moi si vous vouliez connaître le "meilleur seuil" en termes de rapports de vraisemblance ou en termes d'attribut . La réponse change en fonction de la fonction de coût. Utilisation du gaussien dans l'inégalité avec et , ,
c1xσ1=σ2=σμ1=0μ2=1
12log(12)log(12)xσ2x<12π√σexp[−12σ2(x−μ1)2]12π√σexp[−12σ2(x−μ2)2]<log(12π−−√σ)−12σ2(x−0)2−[log(12π−−√σ)−12σ2(x−1)2]<−x22σ2+x22σ2−2x2σ2+12σ2<12σ2−log(12)<12−log(12)σ2
donc un seuil de prédiction en termes de
xque vous recherchez ne peut être atteint que si les pertes résultant de fausses prédictions sont les mêmes, c.-à-d. car alors seulement vous pouvez avoir et vous obtenez le .
L12=L21log(L12L21)=log(1)=0x0<12