Juste une question générale. Si vous avez des données de séries chronologiques, quand est-il préférable d'utiliser des techniques de séries chronologiques (aka, ARCH, GARCH, etc.) plutôt que des techniques d'apprentissage machine / statistique (KNN, régression)? S'il y a une question similaire qui existe sur la validation croisée, veuillez m'orienter vers elle - elle a regardé et n'a pas pu en trouver une.
10
Réponses:
Les méthodes typiques d'apprentissage automatique supposent que vos données sont indépendantes et distribuées de manière identique, ce qui n'est pas vrai pour les données de séries chronologiques. Ils sont donc désavantagés par rapport aux techniques de séries chronologiques, en termes de précision. Pour des exemples de cela, voir les questions précédentes Ordre des séries chronologiques pour l'apprentissage automatique et la forêt aléatoire est trop adaptée .
la source
Francis Diebold a récemment publié "ML et métriques VI: une différence clé entre ML et TS Econometrics" sur son blog. J'en fournis une version abrégée, donc tout le mérite lui revient. (L'accent est mis en gras.)
Ainsi, la conclusion est:
Je recommande de lire l'intégralité du message original ici .
la source
Comme l'a souligné @Tom Minka, la plupart des techniques ML supposent des entrées iid. Il existe cependant quelques solutions:
On peut utiliser tous les échantillons de séries temporelles passées dans le système «Mémoire» comme un vecteur caractéristique, c'est-à-dire: x = [x (t-1), x (t-2), ... x (tM)]. Cependant, cela pose 2 problèmes: 1) en fonction de votre binning, vous pouvez avoir un énorme vecteur d'entités 2- certaines méthodes nécessitent que les entités du vecteur d'entités soient indépendantes, ce qui n'est pas le cas ici.
Il existe de nombreuses techniques ML spécialement conçues pour ces données de séries chronologiques, par exemple les modèles de Markov cachés, qui ont été utilisés avec beaucoup de succès pour la détection de crises, le traitement de la parole, etc.
Enfin, une approche que j'ai adoptée consiste à utiliser des techniques d'extraction de caractéristiques pour convertir un problème de régression dynamique (qui a l'élément temps) en un problème statique. Par exemple, l'approche en mode dynamique principal (PDM) mappe le vecteur d'entité passé en entrée ([x (t-1), x (t-2), ... x (tM)]) sur un vecteur statique ([v ( 1), v (2), .. v (L)]) en convoluant le passé avec un banc de filtres linéaires spécifique au système (les PDM), voir Marmarelis, livre 2004 ou Marmarelis, Vasilis Z. "Méthodologie de modélisation pour les systèmes physiologiques non linéaires . " Annales du génie biomédical 25.2 (1997): 239-251 ...
la source