Une approche typique pour résoudre un problème de classification consiste à identifier une classe de modèles candidats, puis à effectuer une sélection de modèle à l'aide d'une procédure telle que la validation croisée. Généralement, on sélectionne le modèle avec la plus grande précision, ou une fonction associée qui code des informations spécifiques au problème, comme .
En supposant que l'objectif final est de produire un classificateur précis (où la définition de la précision est à nouveau, dépend du problème), dans quelles situations est-il préférable d'effectuer la sélection du modèle en utilisant une règle de notation appropriée plutôt que quelque chose de incorrect, comme l'exactitude, la précision, le rappel , etc? De plus, ignorons les problèmes de complexité des modèles et supposons a priori que nous considérons tous les modèles également probables.
Auparavant, j'aurais dit jamais. Nous savons, au sens formel, que la classification est un problème plus facile que la régression [1], [2] et nous pouvons dériver des limites plus strictes pour la première que pour la dernière ( ). En outre, dans certains cas, essayer de faire correspondre avec précision les probabilités peut entraîner des limites de décision incorrectes ou un surajustement . Cependant, sur la base de la conversation ici et du modèle de vote de la communauté en ce qui concerne ces questions, j'ai remis en question cette opinion.
- Devroye, Luc. Une théorie probabiliste de la reconnaissance des formes. Vol. 31. springer, 1996., section 6.7
- Kearns, Michael J. et Robert E. Schapire. Apprentissage efficace et sans distribution de concepts probabilistes. Foundations of Computer Science, 1990. Actes., 31e Symposium annuel sur. IEEE, 1990.
Cette déclaration pourrait être un peu bâclée. Je veux dire spécifiquement que, étant donné les données étiquetées de la forme avec et , il semble plus facile d'estimer une frontière de décision que d'estimer avec précision les probabilités conditionnelles.