Je lis cet article "Apprentissage de séquence en séquence avec les réseaux de neurones" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
Sous "2. Le modèle", il est écrit:
Le LSTM calcule cette probabilité conditionnelle en obtenant d'abord la représentation dimensionnelle fixe v de la séquence d'entrée (x1, ..., xT) donnée par le dernier état caché du LSTM, puis en calculant la probabilité de y1,. . . , yT 'avec une formulation LSTM-LM standard dont l'état caché initial est fixé à la représentation v de x1,. . . , xT:
Je sais ce qu'est un LSTM, mais qu'est-ce qu'un LSTM-LM? J'ai essayé Google, mais je ne trouve pas de bonnes pistes.
machine-learning
neural-network
nlp
rnn
machine-translation
Taevanbat Mongol
la source
la source
Réponses:
La définition d'un modèle de langage (LM) est une distribution de probabilité sur des séquences de mots.
L'illustration simple d'un LM prédit le mot suivant étant donné le (s) mot (s) précédent (s).
Par exemple, si j'ai un modèle de langue et un ou plusieurs mots initiaux:
My
name
apparaît aprèsMy
.My name
, mon modèle prédit qu'il y a une forte probabilité quiis
apparaît aprèsMy name
.My
->My name
->My name is
->My name is Tom
, et ainsi de suite.Vous pouvez penser à la saisie semi-automatique sur le clavier de votre smartphone. En fait, LM est au cœur de l'auto-complétion.
Ainsi, LSTM-LM utilise simplement un LSTM (et une fonction softmax) pour prédire le mot suivant étant donné vos mots précédents.
Soit dit en passant, le modèle de langage n'est pas limité aux LSTM, aux autres RNN (GRU) ou à d'autres modèles structurés. En fait, vous pouvez également utiliser des réseaux à action directe avec une fenêtre contextuelle / glissante / déroulante pour prédire le mot suivant en fonction de vos mots initiaux.
la source
Dans ce contexte, je pense que cela signifie que vous prenez la représentation de sortie et apprenez une couche softmax supplémentaire qui correspond aux jetons dans votre modèle de langage (dans ce cas, les lettres).
la source