La principale différence entre une GRU et un LSTM réside dans le fait qu’une GRU a deux portes (portes de réinitialisation et de mise à jour ) alors qu’un LSTM a trois portes (à savoir les portes d’ entrée , de sortie et d’ oubli ).
Pourquoi utilisons-nous GRU alors que nous avons clairement plus de contrôle sur le réseau via le modèle LSTM (car nous avons trois portes)? Dans quel scénario le GRU est préféré au LSTM?
neural-network
deep-learning
Sayali Sonawane
la source
la source
Réponses:
La GRU est liée au LSTM car les deux utilisent différentes manières de gating pour éviter le problème de gradient disparaissant. Voici quelques points à propos de GRU vs LSTM-
Pour une description détaillée, vous pouvez explorer ce document de recherche - Arxiv.org . Le papier explique tout cela brillamment.
De plus, vous pouvez également explorer ces blogs pour une meilleure idée-
J'espère que ça aide!
la source
* Pour compléter déjà les bonnes réponses ci-dessus.
D'après mon expérience, les GRU s'entraînent plus rapidement et fonctionnent mieux que les LSTM avec moins de données de formation si vous modélisez le langage (vous n'êtes pas sûr des autres tâches).
Les GRU sont plus simples et donc plus faciles à modifier, par exemple en ajoutant de nouvelles portes en cas de saisie supplémentaire sur le réseau. C'est juste moins de code en général.
Les LSTM devraient en théorie mémoriser des séquences plus longues que les GRU et les surpasser dans les tâches nécessitant la modélisation de relations à longue distance.
* Quelques articles supplémentaires analysant les GRU et les LSTM.
«Algorithmes d'apprentissage des GPU neuronaux» (Łukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228
"Étude comparative de CNN et RNN pour le traitement du langage naturel" (Wenpeng Yin et al. 2017) https://arxiv.org/abs/1702.01923
la source
Cette réponse repose en fait sur le jeu de données et le cas d'utilisation. Il est difficile de dire avec certitude lequel est le meilleur.
la source
Unité complète GRU
Unité LSTM
Comme on peut le voir dans les équations, les LSTM ont une porte de mise à jour et une porte d’oubli distinctes. Cela rend clairement les LSTM plus sophistiqués mais en même temps plus complexes. Il n'y a pas de moyen simple de décider lequel utiliser pour votre cas d'utilisation particulier. Vous devez toujours faire des essais et des erreurs pour tester les performances. Cependant, étant donné que les GRU sont plus simples que les LSTM, leur formation demande beaucoup moins de temps et est plus efficace.
Crédits: Andrew Ng
la source
GRU est meilleur que LSTM car il est facile à modifier et n’a pas besoin d’unités de mémoire. Par conséquent, il est plus rapide à entraîner que LSTM et offre des performances optimales.
la source
En réalité, la différence clé semble être plus que cela: les perceptrons à long terme (LSTM) sont constitués en utilisant les algorithmes de quantité de mouvement et de descente de gradient. Lorsque vous réconciliez des perceptrons de LSTM avec leurs RNN équivalents récursifs, vous obtenez GRU, qui est en réalité une simple unité récurrente généralisée ou une unité récurrente de gradient (selon le contexte) qui intègre plus étroitement les algorithmes d'élan et de descente de gradient. Si j'étais vous, je ferais plus de recherches sur AdamOptimizers.
GRU est un concept dépassé au fait. Cependant, je peux comprendre que vous recherchiez si vous voulez une connaissance approfondie de la TF de moyenne à avancée.
la source