J'essaie d'utiliser la régression RF pour faire des prédictions sur les performances d'une papeterie.
J'ai des données minute par minute pour les intrants (taux et quantité de pâte de bois entrant dans etc ...) ainsi que pour les performances de la machine (papier produit, puissance tirée par la machine) et cherche à faire des prédictions 10 minutes en avant sur les variables de performance.
J'ai 12 mois de données, alors je les ai séparées en 11 mois pour l'ensemble de formation et le dernier mois pour les tests.
Jusqu'à présent, j'ai créé 10 nouvelles fonctionnalités qui sont des valeurs décalées de 1 à 10 minutes pour chacune des variables de performance, et les ai utilisées ainsi que les entrées pour faire des prédictions. Les performances sur l'ensemble de test ont été assez bonnes (le système est assez prévisible), mais je crains de manquer quelque chose dans mon approche.
Par exemple, dans cet article , les auteurs exposent leur approche en testant la capacité prédictive de leur modèle de forêt aléatoire:
La simulation se poursuit par l'ajout itératif d'une nouvelle semaine de données, la formation d'un nouveau modèle basé sur les données mises à jour et la prévision du nombre d'épidémies pour la semaine suivante
En quoi est-ce différent de l'utilisation de données «ultérieures» dans la série chronologique comme test? Dois-je valider mon modèle de régression RF avec cette approche ainsi que sur l'ensemble de données de test? De plus, ce type d'approche «autorégressive» de la régression aléatoire des forêts est-il valable pour les séries chronologiques, et ai-je même besoin de créer autant de variables retardées si je suis intéressé par une prédiction à 10 minutes dans le futur?
Réponses:
L'approche que vous citez s'appelle la prévision "origine glissante": l'origine à partir de laquelle nous prévoyons est "reculée" et les données de formation sont mises à jour avec les nouvelles informations disponibles. L'approche la plus simple est la "prévision d'une seule origine", où nous choisissons une seule origine.
L'avantage de la prévision d'origine glissante est qu'elle simule un système de prévision dans le temps . Dans la prévision d'une seule origine, nous pourrions par hasard choisir une origine où notre système fonctionne très bien (ou très mal), ce qui pourrait nous donner une idée incorrecte des performances de notre système.
Un inconvénient de la prévision de l'origine mobile est son besoin de données plus élevé. Si nous voulons prévoir 10 étapes avec au moins 50 observations historiques, nous pouvons faire cette origine unique avec 60 points de données au total. Mais si nous voulons faire 10 origines mobiles qui se chevauchent, nous avons besoin de 70 points de données.
L'autre inconvénient est bien sûr sa plus grande complexité.
Inutile de dire que vous ne devez pas non plus utiliser des données "ultérieures" dans la prévision de l'origine mobile, mais uniquement des données antérieures à l'origine que vous utilisez à chaque itération.
Si vous avez suffisamment de données, une évaluation d'origine glissante m'inspirera toujours plus de confiance qu'une évaluation d'origine unique, car elle devrait, je l'espère, faire la moyenne de l'impact de l'origine.
Oui, la prévision par roulement ou par origine unique est valable pour tout exercice prédictif. Cela ne dépend pas si vous utilisez des forêts aléatoires ou ARIMA ou autre chose.
Que vous ayez besoin de vos variables retardées, nous ne pouvons pas vous conseiller. Il serait préférable de parler à un expert en la matière, qui pourrait également suggérer d'autres contributions. Essayez simplement votre RF avec les entrées décalées vs sans. Et comparez également aux benchmarks standard comme ARIMA ou ETS ou à des méthodes encore plus simples, qui peuvent être étonnamment difficiles à battre .
la source