Dans le livre Deep Learning d' Ian Goodfellow , il est écrit que
Parfois, la fonction de perte dont nous nous soucions réellement (disons, erreur de classification) n'est pas celle qui peut être optimisée efficacement. Par exemple, la minimisation exacte de la perte 0-1 attendue est généralement insoluble (exponentielle dans la dimension d'entrée), même pour un classificateur linéaire. Dans de telles situations, on optimise généralement une fonction de perte de substitution à la place, qui agit comme un proxy mais présente des avantages.
Pourquoi la perte 0-1 est-elle insoluble ou comment est-elle exponentielle dans les dimensions d'entrée?
la source
L'erreur de classification est en fait parfois traitable. Il peut être optimisé efficacement - mais pas exactement - en utilisant la méthode Nelder-Mead, comme indiqué dans cet article:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
"La réduction de dimension est le processus de transformation de vecteurs multidimensionnels en un espace de faible dimension. Dans la reconnaissance de formes, il est souvent souhaité que cette tâche soit effectuée sans perte significative d'informations de classification. L'erreur de Bayes est un critère idéal à cet effet; cependant, il est connu pour être notoirement difficile pour le traitement mathématique. Par conséquent, des critères sous-optimaux ont été utilisés dans la pratique. Nous proposons un critère alternatif, basé sur l'estimation de l'erreur de Bayes, qui est, je l'espère, plus proche du critère optimal que les critères actuellement utilisés . Un algorithme de réduction de dimension linéaire, basé sur ce critère, est conçu et mis en œuvre. Des expériences démontrent ses performances supérieures par rapport aux algorithmes conventionnels. "
L'erreur Bayes mentionnée ici est essentiellement la perte 0-1.
Ce travail a été réalisé dans le cadre d'une réduction de dimension linéaire. Je ne sais pas à quel point ce serait efficace pour former des réseaux d'apprentissage en profondeur. Mais le fait est, et la réponse à la question: la perte 0-1 n'est pas universellement insoluble. Il peut être optimisé relativement bien pour au moins certains types de modèles.
la source