Pourquoi une fonction de perte 0-1 est-elle insoluble?

12

Dans le livre Deep Learning d' Ian Goodfellow , il est écrit que

Parfois, la fonction de perte dont nous nous soucions réellement (disons, erreur de classification) n'est pas celle qui peut être optimisée efficacement. Par exemple, la minimisation exacte de la perte 0-1 attendue est généralement insoluble (exponentielle dans la dimension d'entrée), même pour un classificateur linéaire. Dans de telles situations, on optimise généralement une fonction de perte de substitution à la place, qui agit comme un proxy mais présente des avantages.

Pourquoi la perte 0-1 est-elle insoluble ou comment est-elle exponentielle dans les dimensions d'entrée?

samra irshad
la source

Réponses:

18

La fonction de perte 0-1 est non convexe et discontinue, donc les méthodes de (sous) gradient ne peuvent pas être appliquées. Pour la classification binaire avec un séparateur linéaire, cette fonction de perte peut être formulée comme trouvant le qui minimise la valeur moyenne de la fonction d'indicateur sur tous les échantillons. C'est exponentiel dans les entrées, car comme il y a deux valeurs possibles pour chaque paire, il y a configurations possibles pour vérifier1 ( y i β x i0 ) i 2 n nβ1(yiβxi0)i2nntotal des points d'échantillonnage. Ceci est connu pour être NP-difficile. La connaissance de la valeur actuelle de votre fonction de perte ne fournit aucune indication sur la façon dont vous devriez éventuellement modifier votre solution actuelle pour l'améliorer, car vous pourriez en déduire si des méthodes de gradient pour les fonctions convexes ou continues étaient disponibles.

Don Walpola
la source
1
Très bon point - dans la pratique, la recherche aléatoire ou la recherche exhaustive sont les seules méthodes qui pourraient être utilisées pour trouver le minimum d'une telle fonction de perte, non?
DeltaIV
2
^^ ou peut-être des méthodes de renseignement évolutives / basées sur l'essaim?
samra irshad
@samrairshad Oui, en fait, la perte 0-1 n'est pas si rare à voir dans les méthodes évolutives.
John Doucette
Avant de passer d'une recherche aléatoire à des algorithmes évolutifs / essaims complexes, je vérifierais la méthode de l'entropie croisée (CEM).
maxy
1

L'erreur de classification est en fait parfois traitable. Il peut être optimisé efficacement - mais pas exactement - en utilisant la méthode Nelder-Mead, comme indiqué dans cet article:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"La réduction de dimension est le processus de transformation de vecteurs multidimensionnels en un espace de faible dimension. Dans la reconnaissance de formes, il est souvent souhaité que cette tâche soit effectuée sans perte significative d'informations de classification. L'erreur de Bayes est un critère idéal à cet effet; cependant, il est connu pour être notoirement difficile pour le traitement mathématique. Par conséquent, des critères sous-optimaux ont été utilisés dans la pratique. Nous proposons un critère alternatif, basé sur l'estimation de l'erreur de Bayes, qui est, je l'espère, plus proche du critère optimal que les critères actuellement utilisés . Un algorithme de réduction de dimension linéaire, basé sur ce critère, est conçu et mis en œuvre. Des expériences démontrent ses performances supérieures par rapport aux algorithmes conventionnels. "

L'erreur Bayes mentionnée ici est essentiellement la perte 0-1.

Ce travail a été réalisé dans le cadre d'une réduction de dimension linéaire. Je ne sais pas à quel point ce serait efficace pour former des réseaux d'apprentissage en profondeur. Mais le fait est, et la réponse à la question: la perte 0-1 n'est pas universellement insoluble. Il peut être optimisé relativement bien pour au moins certains types de modèles.

ljubomir
la source