Théorème d'approximation universel pour les réseaux convolutifs
14
Le théorème d'approximation universelle est un résultat assez célèbre pour les réseaux de neurones, déclarant essentiellement que sous certaines hypothèses, une fonction peut être uniformément approximée par un réseau de neurones avec n'importe quelle précision.
Y a-t-il un résultat analogue qui s'applique aux réseaux de neurones convolutifs?
C'est une question intéressante, cependant, il manque une clarification appropriée de ce qui est considéré comme un réseau neuronal convolutif .
La seule exigence que le réseau doit inclure une opération de convolution? Doit-elle uniquement inclure des opérations de convolution? Les opérations de mutualisation sont-elles admises? Les réseaux convolutifs utilisés dans la pratique utilisent une combinaison d'opérations, comprenant souvent des couches entièrement connectées (dès que vous avez des couches entièrement connectées, vous avez une capacité d'approximation universelle théorique).
réKW∈RK×D
K×DDdk,dWk,dKD
KKDkD…(k+1)Dk
Un tel réseau convolutionnel simule un réseau entièrement connecté et a donc les mêmes capacités d'approximation universelles. C'est à vous de considérer l'utilité d'un tel exemple dans la pratique, mais j'espère qu'il répondra à votre question.
Une telle construction est assez évidente, mais ne vaut que par exemple avec des conditions aux limites de remplissage nul. Avec l'exigence plus naturelle, par exemple de conditions aux limites périodiques (rendant l'équivariante de la translation de l'opérateur), elle échoue.
Jonas Adler
1
Oui, cette construction évidente suppose que la convolution n'est appliquée qu'à l'entrée (pas de remplissage). Comme je l'ai dit, à moins que vous ne précisiez ce qui est autorisé et ce qui ne relève pas de votre définition de CNN, je suppose que c'est une approche valable. Notez également que les implications pratiques de l'UAT sont pratiquement nulles, donc je ne sais pas si cela a même du sens de creuser trop profondément dans cela, en spécifiant différentes versions de CNN et en démontrant quelque chose de similaire pour chacune d'entre elles.
L'article montre que toute fonction équivariante de traduction peut être arbitrairement bien approchée par un réseau de neurones convolutifs étant donné qu'elle est suffisamment large, en analogie directe avec le théorème classique d'approximation universelle.
Voir l'article Universality of Deep Convolutional Neural Networks de Ding-Xuan Zhou , qui montre que les réseaux de neurones convolutionnels sont universels, c'est-à-dire qu'ils peuvent approximer n'importe quelle fonction continue avec une précision arbitraire lorsque la profondeur du réseau neuronal est suffisamment grande.
Il semble que cette question ait reçu une réponse affirmative dans cet article récent de Dmitry Yarotsky: Approximations universelles des cartes invariantes par les réseaux de neurones .
L'article montre que toute fonction équivariante de traduction peut être arbitrairement bien approchée par un réseau de neurones convolutifs étant donné qu'elle est suffisamment large, en analogie directe avec le théorème classique d'approximation universelle.
la source
Voir l'article Universality of Deep Convolutional Neural Networks de Ding-Xuan Zhou , qui montre que les réseaux de neurones convolutionnels sont universels, c'est-à-dire qu'ils peuvent approximer n'importe quelle fonction continue avec une précision arbitraire lorsque la profondeur du réseau neuronal est suffisamment grande.
la source