Commande de séries chronologiques pour l'apprentissage automatique

14

Après avoir lu l' un des "Conseils de recherche" de RJ Hyndman sur la validation croisée et les séries chronologiques, je suis revenu à une vieille question que je vais essayer de formuler ici. L'idée est que dans les problèmes de classification ou de régression, l'ordre des données n'est pas important et, par conséquent, la validation croisée à k peut être utilisée. En revanche, dans les séries chronologiques, la mise en ordre des données est évidemment d'une grande importance.

Cependant, lors de l' utilisation d' un modèle d' apprentissage machine séries chronologiques prévisions, une stratégie commune consiste à remodeler la série en un ensemble de "vecteurs d'entrée-sortie" , qui, pendant un temps t , ont la forme ( y t - n + 1 , . . . , Y t - 1 , y t , y t + 1 ) .{y1,...,yT}t(yt-n+1,...,yt-1,yt;yt+1)

Maintenant, une fois ce remodelage effectué, peut-on considérer que l'ensemble résultant de "vecteurs d'entrée-sortie" n'a pas besoin d'être ordonné? Si nous utilisons, par exemple, un réseau neuronal à action directe avec n entrées pour «apprendre» ces données, nous arriverions aux mêmes résultats, peu importe l'ordre dans lequel nous montrons les vecteurs au modèle. Et par conséquent, pourrions-nous utiliser la validation croisée k-fold de manière standard, sans avoir besoin de réajuster le modèle à chaque fois?

jla
la source

Réponses:

2

La réponse à cette question est que cela fonctionnera bien tant que votre commande de modèle est correctement spécifiée, car les erreurs de votre modèle seront alors indépendantes.

Cet article montre ici que si un modèle a une mauvaise validation croisée, il sous-estimera à quel point il est mauvais. Dans tous les autres cas, la validation croisée fera un bon travail, en particulier un meilleur travail que l'évaluation hors échantillon habituellement utilisée dans le contexte des séries chronologiques.

Christoph Bergmeir
la source
6

Question interessante!

L'approche que vous décrivez est certainement très largement utilisée par les personnes utilisant des méthodes ML standard qui nécessitent des vecteurs d'attributs de longueur fixe pour analyser les données de séries chronologiques.

Dans le message auquel vous vous connectez, Hyndman souligne qu'il existe des corrélations entre les vecteurs de données remodelés (échantillons). Cela pourrait être problématique, car k-CV (ou d'autres méthodes d'évaluation qui divisent les données au hasard en ensembles d'apprentissage et de test) supposent que tous les échantillons sont indépendants. Cependant, je ne pense pas que cette préoccupation soit pertinente dans le cas d'une méthode ML standard, qui traite les attributs séparément.

Pour explication, permettez-moi de simplifier votre notation en supposant n=3, donc les premiers vecteurs de données (étiquetés par ordre alphabétique) seront:

UNE:(y1,y2,y3;y4)B:(y2,y3,y4;y5)C:(y3,y4,y5;y6)

De toute évidence, A et B ont des termes tels que y2en commun. Mais, pour A, c'est la valeur de son deuxième attribut alors que pour B c'est la valeur de son premier attribut.

Irish Buffer
la source
1
Je suis d'accord avec vous que certains algorithmes ML peuvent être à l'abri du problème des échantillons hautement corrélés car ils traitent les attributs complètement séparément. Mais ces algorithmes ne sont pas non plus très bons pour le travail en série temporelle. Les algorithmes ML qui sont prometteurs pour une série chronologique doivent être capables de remarquer que l'attribut # 1 et l'attribut # 2 sont en fait un peu similaires, sinon ils vont être mauvais lors de la prédiction (la prédiction devrait être à peu près similaire lorsque vous décalez le temps de 1). Ces algorithmes souffriraient également du problème mentionné par Hyndman.
max