Le problème auquel je fais face est la prévision des valeurs de séries chronologiques. Je regarde une série chronologique à la fois et sur la base par exemple de 15% des données d'entrée, je voudrais prédire ses valeurs futures. Jusqu'à présent, je suis tombé sur deux modèles:
J'ai essayé les deux et lu quelques articles à leur sujet. Maintenant, j'essaie de mieux comprendre comment comparer les deux. Ce que j'ai trouvé jusqu'à présent:
- LSTM fonctionne mieux si nous traitons une énorme quantité de données et si suffisamment de données de formation sont disponibles, tandis qu'ARIMA est meilleur pour les petits ensembles de données (est-ce correct?)
- ARIMA nécessite une série de paramètres
(p,q,d)
qui doivent être calculés en fonction des données, tandis que LSTM ne nécessite pas de définir de tels paramètres. Cependant, il y a certains hyperparamètres que nous devons régler pour LSTM.
Outre les propriétés susmentionnées, je n'ai trouvé aucun autre point ou fait qui pourrait m'aider à sélectionner le meilleur modèle. Je serais vraiment reconnaissant si quelqu'un pouvait m'aider à trouver des articles, des articles ou d'autres choses (pas eu de chance jusqu'à présent, seulement quelques opinions générales ici et là et rien basé sur des expériences.)
Je dois mentionner qu'à l'origine, je traite des données en streaming, mais pour l'instant j'utilise des ensembles de données NAB qui comprennent 50 ensembles de données avec une taille maximale de 20 000 points de données.
Réponses:
Une comparaison des réseaux de neurones artificiels et des modèles de séries chronologiques pour la prévision des prix des produits de base compare les performances d'ANN et d'ARIMA dans la prévision des séries chronologiques financières. Je pense que c'est un bon point de départ pour votre analyse documentaire.
Dans de nombreux cas, les réseaux de neurones ont tendance à surpasser les modèles basés sur la RA. Cependant, je pense qu'un inconvénient majeur (qui n'est pas beaucoup abordé dans la littérature universitaire) avec les méthodes d'apprentissage automatique plus avancées est qu'elles utilisent des boîtes noires. C'est un gros problème si vous deviez expliquer comment le modèle fonctionne à quelqu'un qui ne connaît pas beaucoup de ces modèles (par exemple dans une entreprise). Mais si vous faites cette analyse juste comme un travail scolaire, je ne pense pas que cela va être un problème.
Mais comme l'a dit le commentateur précédent, la meilleure façon est généralement de former un estimateur d'ensemble dans lequel vous combinez deux modèles ou plus.
la source