Régression forestière aléatoire pour la prédiction de séries chronologiques

10

J'essaie d'utiliser la régression RF pour faire des prédictions sur les performances d'une papeterie.

J'ai des données minute par minute pour les intrants (taux et quantité de pâte de bois entrant dans etc ...) ainsi que pour les performances de la machine (papier produit, puissance tirée par la machine) et cherche à faire des prédictions 10 minutes en avant sur les variables de performance.

J'ai 12 mois de données, alors je les ai séparées en 11 mois pour l'ensemble de formation et le dernier mois pour les tests.

Jusqu'à présent, j'ai créé 10 nouvelles fonctionnalités qui sont des valeurs décalées de 1 à 10 minutes pour chacune des variables de performance, et les ai utilisées ainsi que les entrées pour faire des prédictions. Les performances sur l'ensemble de test ont été assez bonnes (le système est assez prévisible), mais je crains de manquer quelque chose dans mon approche.

Par exemple, dans cet article , les auteurs exposent leur approche en testant la capacité prédictive de leur modèle de forêt aléatoire:

La simulation se poursuit par l'ajout itératif d'une nouvelle semaine de données, la formation d'un nouveau modèle basé sur les données mises à jour et la prévision du nombre d'épidémies pour la semaine suivante

En quoi est-ce différent de l'utilisation de données «ultérieures» dans la série chronologique comme test? Dois-je valider mon modèle de régression RF avec cette approche ainsi que sur l'ensemble de données de test? De plus, ce type d'approche «autorégressive» de la régression aléatoire des forêts est-il valable pour les séries chronologiques, et ai-je même besoin de créer autant de variables retardées si je suis intéressé par une prédiction à 10 minutes dans le futur?

KRS-fun
la source
2
Les RF ne sont pas conçus pour et n'intègrent pas explicitement les considérations temporelles. Compte tenu de cela, pourquoi les utiliser pour cette analyse? Il existe de nombreuses méthodologies de séries chronologiques. Choisissez-en un.
Mike Hunter
2
@DJohnson J'ai pensé que j'essaierais d'imiter l'approche du document: essayez RF et comparez-le à ARIMA. Êtes-vous en train de suggérer que cela ne vaut pas le temps et d'utiliser simplement ARIMA?
KRS-fun
4
@DJohnson, la mécanique des modèles autorégressifs ressemble beaucoup à celle des modèles de régression transversale. Une fois les caractéristiques décalées construites, pourquoi ne pas utiliser les RF comme dans un cadre en coupe transversale? Je pense qu'il est juste de les essayer. Mais vous avez raison de dire que d'autres méthodes sont plus populaires dans les séries chronologiques, et l'OP pourrait également en tirer parti.
Richard Hardy
1
Mon opinion est que les RF sont comme le marteau où tout devient un clou. Avec les données décrites par le PO, mon premier choix serait un panel de données ou un modèle groupé, pas ARIMA.
Mike Hunter
5
Je suis tombé sur ce point tout à l'heure et j'ai lu le document dont il a été question il y a quelques jours. Je compare la forêt aléatoire et un LSTM pour la prévision de séries chronologiques multivariées. Fait intéressant, le LSTM fait mieux lorsqu'il inclut moins de temps dans les données de formation, mais comme j'ajoute plus d'années de données, les résultats des deux méthodes convergent vers les vrais résultats. Je pense que c'est principalement parce que les fonctionnalités fournissent suffisamment d'informations pour surmonter la composante temporelle. Quoi qu'il en soit, j'ai pensé que c'était intéressant. De plus, je n'ai jamais vu ARIMA bien fonctionner, sauf dans des cas saisonniers très évidents, et ARIMA multivarié est ...
Hobbes

Réponses:

6

En quoi est-ce différent de l'utilisation de données «ultérieures» dans la série chronologique comme test?

L'approche que vous citez s'appelle la prévision "origine glissante": l'origine à partir de laquelle nous prévoyons est "reculée" et les données de formation sont mises à jour avec les nouvelles informations disponibles. L'approche la plus simple est la "prévision d'une seule origine", où nous choisissons une seule origine.

L'avantage de la prévision d'origine glissante est qu'elle simule un système de prévision dans le temps . Dans la prévision d'une seule origine, nous pourrions par hasard choisir une origine où notre système fonctionne très bien (ou très mal), ce qui pourrait nous donner une idée incorrecte des performances de notre système.

Un inconvénient de la prévision de l'origine mobile est son besoin de données plus élevé. Si nous voulons prévoir 10 étapes avec au moins 50 observations historiques, nous pouvons faire cette origine unique avec 60 points de données au total. Mais si nous voulons faire 10 origines mobiles qui se chevauchent, nous avons besoin de 70 points de données.

L'autre inconvénient est bien sûr sa plus grande complexité.

Inutile de dire que vous ne devez pas non plus utiliser des données "ultérieures" dans la prévision de l'origine mobile, mais uniquement des données antérieures à l'origine que vous utilisez à chaque itération.

Dois-je valider mon modèle de régression RF avec cette approche ainsi que sur l'ensemble de données de test?

Si vous avez suffisamment de données, une évaluation d'origine glissante m'inspirera toujours plus de confiance qu'une évaluation d'origine unique, car elle devrait, je l'espère, faire la moyenne de l'impact de l'origine.

De plus, ce type d'approche «autorégressive» de la régression aléatoire des forêts est-il valable pour les séries chronologiques, et ai-je même besoin de créer autant de variables retardées si je suis intéressé par une prédiction à 10 minutes dans le futur?

Oui, la prévision par roulement ou par origine unique est valable pour tout exercice prédictif. Cela ne dépend pas si vous utilisez des forêts aléatoires ou ARIMA ou autre chose.

Que vous ayez besoin de vos variables retardées, nous ne pouvons pas vous conseiller. Il serait préférable de parler à un expert en la matière, qui pourrait également suggérer d'autres contributions. Essayez simplement votre RF avec les entrées décalées vs sans. Et comparez également aux benchmarks standard comme ARIMA ou ETS ou à des méthodes encore plus simples, qui peuvent être étonnamment difficiles à battre .

Stephan Kolassa
la source