Qu'est-ce qu'une formulation LSTM-LM?

8

Je lis cet article "Apprentissage de séquence en séquence avec les réseaux de neurones" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

Sous "2. Le modèle", il est écrit:

Le LSTM calcule cette probabilité conditionnelle en obtenant d'abord la représentation dimensionnelle fixe v de la séquence d'entrée (x1, ..., xT) donnée par le dernier état caché du LSTM, puis en calculant la probabilité de y1,. . . , yT 'avec une formulation LSTM-LM standard dont l'état caché initial est fixé à la représentation v de x1,. . . , xT:

Je sais ce qu'est un LSTM, mais qu'est-ce qu'un LSTM-LM? J'ai essayé Google, mais je ne trouve pas de bonnes pistes.

Taevanbat Mongol
la source
Mais cette phrase me laisse encore perplexe. si je le mets en équation si fait ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) avec c le dernier état caché de l'encodeur. alors le premier état caché représente les informations fournies par le codeur mais les suivants représentent la distribution de probabilité des éléments de la séquence cible: quelque chose de nature radicalement différente. De plus, l'initialisation de l'état de cellule n'est pas donnée et la figure 1 laisse croire que le LSTM fournit
Charles Englebert

Réponses:

10

La définition d'un modèle de langage (LM) est une distribution de probabilité sur des séquences de mots.

L'illustration simple d'un LM prédit le mot suivant étant donné le (s) mot (s) précédent (s).

Par exemple, si j'ai un modèle de langue et un ou plusieurs mots initiaux:

  • Je mets mon premier mot sur My
  • Mon modèle prédit qu'il y a une forte probabilité qui nameapparaît après My.
  • En définissant les mots initiaux sur My name, mon modèle prédit qu'il y a une forte probabilité qui isapparaît après My name.
  • C'est donc comme: My-> My name-> My name is-> My name is Tom, et ainsi de suite.

Vous pouvez penser à la saisie semi-automatique sur le clavier de votre smartphone. En fait, LM est au cœur de l'auto-complétion.

Ainsi, LSTM-LM utilise simplement un LSTM (et une fonction softmax) pour prédire le mot suivant étant donné vos mots précédents.

Soit dit en passant, le modèle de langage n'est pas limité aux LSTM, aux autres RNN (GRU) ou à d'autres modèles structurés. En fait, vous pouvez également utiliser des réseaux à action directe avec une fenêtre contextuelle / glissante / déroulante pour prédire le mot suivant en fonction de vos mots initiaux.

rilut
la source
Cela change-t-il la formulation du LSTM lui-même?
Taevanbat Mongol
Ou cela change-t-il la façon dont les LSTM sont liés entre eux?
Taevanbat Mongol
1
À mon humble avis, cela signifie peut-être un LSTM qui est réglé pour LM (Modélisation du langage). Je lis le même papier et c'est ce que je comprends
Ali
@TaevanbatMongol non, cela ne change pas la formulation LSTM. Vous avez seulement besoin d'une fonction softmax (ou quelque chose) pour générer la probabilité des mots à partir de la sortie
LSTM
La probabilité des mots signifie que si vous additionnez la probabilité / le score de la sortie d'un pas de temps, il sera égal à 1
rilut
1

Dans ce contexte, je pense que cela signifie que vous prenez la représentation de sortie et apprenez une couche softmax supplémentaire qui correspond aux jetons dans votre modèle de langage (dans ce cas, les lettres).

Bhav Ashok
la source