Le théorème d'approximation universel pour les réseaux de neurones s'applique-t-il à une fonction d'activation (sigmoïde, ReLU, Softmax, etc ...) ou est-il limité aux fonctions sigmoïdes?
Mise à jour: Comme le souligne shimao dans les commentaires, cela ne vaut absolument pour aucune fonction. Alors, pour quelle classe de fonctions d'activation tient-il?
neural-networks
approximation
Skander H.
la source
la source
Réponses:
L' article de wikipedia contient une déclaration officielle.
la source
Les réseaux multicouches à action directe sont une référence publiée qui résout le problème. Les fonctions d'activation polynomiales n'ont pas la propriété d'approximation universla.
La préimpression NN avec des fonctions d'activation illimitées couvre de nombreuses fonctions d'activation. Il ne regarde que la seule couche cachée NN. C'est lourd sur l'analyse de Fourier.
Je souligne que la deuxième référence est une pré-impression car je ne peux pas garantir sa précision. Leshno et alt 1993 est une publication révisée.
la source
L'article de Kurt Hornik de 1991 intitulé "Capacités d'approximation des réseaux multicouches à action directe" prouve que "les réseaux multicouches standard à action directe avec aussi peu qu'une seule couche cachée et une fonction d'activation limitée et arbitraire sont des approximateurs universels en ce qui concerne les critères de performance , pour des mesures arbitraires d'environnement d'entrée fini , à condition que suffisamment d'unités cachées soient disponibles. " En d'autres termes, l'hypothèse selon laquelle la fonction d'activation est limitée et non constante est suffisante pour approximer presque toutes les fonctions étant donné que nous pouvons utiliser autant d'unités cachées que nous le voulons dans le réseau neuronal. Le document devrait être disponible ici: http://zmjones.com/static/statistical-learning/hornik-nn-1991.pdfLP(μ) μ
la source