Je suis très nouveau dans le Deep Learning et je suis particulièrement intéressé à savoir ce que sont LSTM et BiLSTM et quand les utiliser (principaux domaines d'application). Pourquoi LSTM et BILSTM sont-ils plus populaires que RNN?
Pouvons-nous utiliser ces architectures d'apprentissage en profondeur dans des problèmes non supervisés?
Réponses:
RNN
des architectures commeLSTM
etBiLSTM
sont utilisées dans des occasions où le problème d'apprentissage est séquentiel, par exemple vous avez une vidéo et vous voulez savoir de quoi il s'agit ou vous voulez qu'un agent vous lise une ligne de document qui est une image de texte et qui est pas au format texte. Je vous encourage fortement à jeter un œil ici .LSTMs
et leurs variantes bidirectionnelles sont populaires car elles ont essayé d'apprendre comment et quand oublier et quand ne pas utiliser de portes dans leur architecture. Dans lesRNN
architectures précédentes , la disparition des gradients était un gros problème et empêchait ces réseaux d'apprendre autant.En utilisant Bidirectionnel
LSTMs
, vous alimentez l'algorithme d'apprentissage avec les données d'origine une fois du début à la fin et une fois de la fin au début. Il y a des débats ici, mais cela apprend généralement plus rapidement qu'une approche unidirectionnelle bien que cela dépende de la tâche.Oui, vous pouvez également les utiliser dans un apprentissage non supervisé en fonction de votre tâche. jetez un oeil ici et ici .
la source
Les humains ne commencent pas leur réflexion à partir de zéro à chaque seconde. En lisant cet essai, vous comprenez chaque mot en fonction de votre compréhension des mots précédents. Vous ne jetez pas tout et recommencez à penser à partir de zéro. Vos pensées sont persistantes.
Les réseaux de neurones traditionnels ne peuvent pas faire cela, et cela semble être une lacune majeure. Par exemple, imaginez que vous souhaitez classer le type d'événement qui se produit à chaque étape d'un film. On ne sait pas comment un réseau de neurones traditionnel pourrait utiliser son raisonnement sur les événements précédents du film pour informer les événements ultérieurs.
Les réseaux de neurones récurrents résolvent ce problème. Ce sont des réseaux avec des boucles, permettant à l'information de persister.
Pour en savoir plus, consultez le blog de Cohen
la source
Par rapport à LSTM,
BLSTM
ouBiLSTM
possède deux réseaux, un accès auxpast
informations dans leforward
sens et un autre accèsfuture
dans lereverse
sens. WIKIUne nouvelle classe
Bidirectional
est ajoutée selon le document officiel ici :Un exemple complet utilisant des données IMDB sera comme ceci
la source