Alors, quel est le problème avec LSTM?

12

J'élargis mes connaissances sur le package Keras et j'ai travaillé avec certains des modèles disponibles. J'ai un problème de classification binaire PNL que j'essaie de résoudre et j'ai appliqué différents modèles.

Après avoir travaillé avec quelques résultats et lu de plus en plus sur LSTM, il semble que cette approche soit de loin supérieure à tout ce que j'ai essayé (sur plusieurs jeux de données). Je n'arrête pas de me demander: "pourquoi / quand n'utiliseriez-vous pas LSTM?". L'utilisation des portes supplémentaires, inhérentes à LSTM, est parfaitement logique pour moi après avoir eu certains modèles qui souffrent de gradients de fuite.

Alors, quel est le problème avec LSTM? Où ne font-ils pas si bien? Je sais qu'il n'y a pas d'algorithme «taille unique», donc il doit y avoir un inconvénient au LSTM.

I_Play_With_Data
la source
Essayez GRU, ils sont comme LSTM mais nécessitent moins de mémoire et s'entraînent plus rapidement.
Vivek Khetan

Réponses:

11

Vous avez raison de dire que les LSTM fonctionnent très bien pour certains problèmes, mais certains des inconvénients sont les suivants:

  • Les LSTM mettent plus de temps à s'entraîner
  • Les LSTM nécessitent plus de mémoire pour s'entraîner
  • Les LSTM sont faciles à équiper
  • Le décrochage est beaucoup plus difficile à mettre en œuvre dans les LSTM
  • Les LSTM sont sensibles aux différentes initialisations de poids aléatoire

Ceux-ci sont en comparaison avec un modèle plus simple comme un filet de conv 1D, par exemple.

Les trois premiers éléments sont dus au fait que les LSTM ont plus de paramètres.

Imran
la source
3
D'accord, et je pense que le sur-ajustement (aka mauvaise généralisation) est peut-être le plus grand risque. Assurez-vous d'avoir une bonne stratégie pour effectuer la validation du modèle.
tom