Théorème d'approximation universel pour les réseaux convolutifs

14

Le théorème d'approximation universelle est un résultat assez célèbre pour les réseaux de neurones, déclarant essentiellement que sous certaines hypothèses, une fonction peut être uniformément approximée par un réseau de neurones avec n'importe quelle précision.

Y a-t-il un résultat analogue qui s'applique aux réseaux de neurones convolutifs?

Jonas Adler
la source

Réponses:

7

C'est une question intéressante, cependant, il manque une clarification appropriée de ce qui est considéré comme un réseau neuronal convolutif .

La seule exigence que le réseau doit inclure une opération de convolution? Doit-elle uniquement inclure des opérations de convolution? Les opérations de mutualisation sont-elles admises? Les réseaux convolutifs utilisés dans la pratique utilisent une combinaison d'opérations, comprenant souvent des couches entièrement connectées (dès que vous avez des couches entièrement connectées, vous avez une capacité d'approximation universelle théorique).

DKWRK×D

  1. K×DDdk,dWk,dKD

  2. KKDkD(k+1)Dk

Un tel réseau convolutionnel simule un réseau entièrement connecté et a donc les mêmes capacités d'approximation universelles. C'est à vous de considérer l'utilité d'un tel exemple dans la pratique, mais j'espère qu'il répondra à votre question.

Jan Kukacka
la source
1
Une telle construction est assez évidente, mais ne vaut que par exemple avec des conditions aux limites de remplissage nul. Avec l'exigence plus naturelle, par exemple de conditions aux limites périodiques (rendant l'équivariante de la translation de l'opérateur), elle échoue.
Jonas Adler
1
Oui, cette construction évidente suppose que la convolution n'est appliquée qu'à l'entrée (pas de remplissage). Comme je l'ai dit, à moins que vous ne précisiez ce qui est autorisé et ce qui ne relève pas de votre définition de CNN, je suppose que c'est une approche valable. Notez également que les implications pratiques de l'UAT sont pratiquement nulles, donc je ne sais pas si cela a même du sens de creuser trop profondément dans cela, en spécifiant différentes versions de CNN et en démontrant quelque chose de similaire pour chacune d'entre elles.
Jan Kukacka
5

Il semble que cette question ait reçu une réponse affirmative dans cet article récent de Dmitry Yarotsky: Approximations universelles des cartes invariantes par les réseaux de neurones .

L'article montre que toute fonction équivariante de traduction peut être arbitrairement bien approchée par un réseau de neurones convolutifs étant donné qu'elle est suffisamment large, en analogie directe avec le théorème classique d'approximation universelle.

Jonas Adler
la source
3

Voir l'article Universality of Deep Convolutional Neural Networks de Ding-Xuan Zhou , qui montre que les réseaux de neurones convolutionnels sont universels, c'est-à-dire qu'ils peuvent approximer n'importe quelle fonction continue avec une précision arbitraire lorsque la profondeur du réseau neuronal est suffisamment grande.

nbro
la source
1
Cela semble supposer des conditions aux limites nulles, donc le résultat devrait être le même que celui mentionné par jan-kukacka
Jonas Adler