Structure du réseau neuronal récurrent (LSTM, GRU)

10

J'essaie de comprendre l'architecture des RNN. J'ai trouvé ce tutoriel qui a été très utile: http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Surtout cette image: entrez la description de l'image ici

Comment cela s'intègre-t-il dans un réseau à action directe? Cette image est-elle juste un autre nœud dans chaque couche?

Adam12344
la source
Ou est-ce à quoi ressemble chaque neurone?
Adam12344

Réponses:

8

httXtht-1

ht

Felipefg
la source
htctXt
6

Dans votre image A est une seule couche cachée avec un seul neurone caché. De gauche à droite est l'axe du temps, et en bas, vous recevez une entrée à chaque fois. Au sommet, le réseau pourrait être encore élargi en ajoutant des couches.

Si vous dépliez ce réseau dans le temps, comme le montre visuellement votre image (de gauche à droite, l'axe du temps est déplié), vous obtiendrez un réseau à action directe avec T (quantité totale de pas de temps) couches cachées contenant chacune un nœud unique (neurone) tel que dessiné dans le bloc A du milieu.

J'espère que ça répond à ta question.

Sjoerd
la source
3

Je voudrais expliquer ce schéma simple dans un contexte relativement compliqué: mécanisme d'attention dans le décodeur du modèle seq2seq.

h0hk-1Xje. J'illustre votre problème en utilisant ceci parce que tous les états du pas de temps sont enregistrés pour le mécanisme d'attention plutôt que simplement jetés uniquement pour obtenir le dernier. Il s'agit d'un seul neurone et est considéré comme une couche (plusieurs couches peuvent être empilées pour former par exemple un codeur bidirectionnel dans certains modèles seq2seq pour extraire plus d'informations abstraites dans les couches supérieures).

Il encode ensuite la phrase (avec les mots L et chacun représenté comme un vecteur de la forme: embedding_dimention * 1) dans une liste de tenseurs L (chacun de la forme: num_hidden / num_units * 1). Et l'état passé au décodeur n'est que le dernier vecteur de l'incorporation de la phrase de la même forme de chaque élément de la liste.

entrez la description de l'image ici
Source de l'image: mécanisme d'attention

Lerner Zhang
la source