Comme d'autres réponses l'indiquent correctement, les probabilités déclarées à partir de modèles tels que la régression logistique et les Bayes naïfs sont des estimations de la probabilité de classe. Si le modèle était vrai, la probabilité serait en effet la probabilité d'une classification correcte.
Cependant, il est assez important de comprendre que cela pourrait être trompeur car le modèle est estimé et donc pas un modèle correct. Il y a au moins trois problèmes.
- Incertitude des estimations.
- Erreur de spécification du modèle.
- Biais.
L' incertitude n'est que le fait partout présent que la probabilité n'est qu'une estimation. Un intervalle de confiance de la probabilité de classe estimée pourrait donner une idée de l'incertitude (de la probabilité de classe, pas de la classification).
Si le modèle est erroné et face à lui, il l'est les probabilités de classe peuvent être assez trompeuses même si les prédictions de classe sont bonnes. La régression logistique peut fausser les probabilités de classe pour deux classes assez bien séparées si certains points de données sont un peu extrêmes. Il pourrait encore faire du bon travail en termes de classification.---
Si la procédure d'estimation (intentionnellement) fournit une estimation biaisée , les probabilités de classe sont erronées. C'est quelque chose que je vois avec les méthodes de régularisation comme le lasso et la crête pour la régression logistique. Si un choix de régularisation croisé conduit à un modèle performant en termes de classification, les probabilités de classe qui en résultent sont clairement sous-estimées (trop proches de 0,5) sur les cas de test. Ce n'est pas nécessairement mauvais, mais il est important d'en être conscient.