J'ai récemment appris les règles de notation appropriées pour les classificateurs probabilistes. Plusieurs discussions sur ce site Web ont mis un point d'honneur à souligner que la précision est une règle de notation incorrecte et ne doit pas être utilisée pour évaluer la qualité des prévisions générées par un modèle probabiliste tel que la régression logistique.
Cependant, un certain nombre d'articles universitaires que j'ai lus ont donné une perte de classification erronée comme exemple d'une règle de notation correcte (non stricte) dans un cadre de classification binaire. L'explication la plus claire que j'ai pu trouver était dans cet article , au bas de la page 7. Pour autant que je sache, minimiser la perte de classification erronée équivaut à maximiser la précision, et les équations du document ont un sens intuitif.
Par exemple: en utilisant la notation du papier, si la vraie probabilité conditionnelle (étant donné un vecteur caractéristique x ) de la classe d'intérêt est η = 0,7, toute prévision q > 0,5 aurait une perte attendue R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3, et tout q 0,5 aurait une perte attendue de 0,7. La fonction de perte serait donc minimisée à q = η = 0,7 et par conséquent propre; la généralisation à l'ensemble des probabilités et prévisions conditionnelles réelles semble assez simple à partir de là.
En supposant que les calculs et les déclarations ci-dessus sont corrects, les inconvénients d'un minimum non unique et toutes les prévisions supérieures à 0,5 partageant la même perte minimale attendue sont évidents. Je ne vois toujours aucune raison d'utiliser la précision par rapport aux alternatives traditionnelles telles que le score de log, le score de Brier, etc. Cependant, est-il correct de dire que la précision est une règle de notation appropriée lors de l'évaluation de modèles probabilistes dans un cadre binaire, ou est-ce que je fais un erreur - soit dans ma compréhension de la perte de classification erronée, soit en l'assimilant à la précision?