Trier les nombres en utilisant seulement 2 couches cachées

10

Je suis en train de lire l'article clé Séquence à séquence d'apprentissage avec les réseaux de neurones par Ilya Sutskever et Quoc Le. Sur la première page, il mentionne brièvement que:

A surprising example of the power of DNNs is their ability to sort
N N-bit numbers using only 2 hidden layers of quadratic size 

Quelqu'un peut-il brièvement expliquer comment trier les nombres en utilisant seulement 2 couches cachées?

Aerin
la source

Réponses:

3

En faisant des recherches, j'ai trouvé un document qui prouve que le tri peut être effectué avec au plus 3 couches, et que leur solution est optimale si vous limitez la taille du réseau à polynôme par rapport au nombre de numéros d'entrée:

Réseaux neuronaux efficaces en profondeur pour la division et les problèmes connexes , voir Théorème 7 à la page 955 (page 10 dans le PDF).

Maximilian Janisch
la source
1
Merci d'avoir trouvé l'article pertinent! En fait, ce papier fait le tri avec "profondeur" 3, ce qui semble ne signifier que deux couches cachées. Voir également leur référence 14 sur laquelle ils s'appuient pour la borne inférieure, "Threshold Circuits of Bounded Depth" igi-web.tugraz.at/people/maass/psfiles/34o.pdf (également sur ResearchGate) en particulier pages 131-132 (3 -4 en pdf).
Ben Reiniger