J'ai besoin d'automatiser les prévisions de séries chronologiques et je ne connais pas à l'avance les caractéristiques de ces séries (saisonnalité, tendance, bruit, etc.).
Mon objectif n'est pas d'obtenir le meilleur modèle possible pour chaque série, mais d'éviter les très mauvais modèles. En d'autres termes, obtenir de petites erreurs à chaque fois n'est pas un problème, mais obtenir de grosses erreurs de temps en temps l'est.
J'ai pensé que je pourrais y parvenir en combinant des modèles calculés avec différentes techniques.
Autrement dit, bien que l'ARIMA soit la meilleure approche pour une série spécifique, elle peut ne pas être la meilleure pour une autre série; de même pour le lissage exponentiel.
Cependant, si je combine un modèle de chaque technique, même si un modèle n'est pas aussi bon, l'autre rapprochera l'estimation de la valeur réelle.
Il est bien connu qu'ARIMA fonctionne mieux pour les séries bien comportées à long terme, tandis que le lissage exponentiel se distingue des séries bruyantes à court terme.
- Mon idée est de combiner des modèles générés à partir des deux techniques afin d'obtenir des prévisions plus robustes, est-ce sensé?
Il pourrait y avoir plusieurs façons de combiner ces modèles.
- Si c'est une bonne approche, comment dois-je les combiner?
Une moyenne simple des prévisions est une option, mais je pourrais peut-être obtenir de meilleures prévisions si je pondère la moyenne en fonction d'une mesure de qualité du modèle.
- Quel serait le traitement de la variance lors de la combinaison de modèles?
la source
Réponses:
La combinaison des prévisions est une excellente idée. (Je pense qu'il n'est pas exagéré de dire que c'est l'une des rares choses sur lesquelles les prévisionnistes universitaires sont d'accord.)
Il se trouve que j'ai écrit un article il y a quelque temps en examinant différentes façons de pondérer les prévisions en les combinant: http://www.sciencedirect.com/science/article/pii/S0169207010001032 Fondamentalement, l'utilisation des poids (Akaike) n'améliorait pas systématiquement les combinaisons sur des moyens ou des médianes simples ou ajustés / gagnés en erreur, donc j'y penserais à deux fois avant de mettre en œuvre une procédure complexe qui peut ne pas produire un avantage certain (rappelez-vous, cependant, que les combinaisons ont constamment surpassé la sélection des méthodes individuelles par des critères d'information). Bien entendu, cela peut dépendre de la série chronologique que vous possédez.
J'ai examiné la combinaison des intervalles de prédiction dans l'article ci-dessus, mais pas la combinaison de la variance en tant que telle. Il me semble que je me souviens d'un article publié il y a peu de temps dans l' IJF avec cet accent, donc vous voudrez peut-être rechercher "combinaison" ou "combinaison" dans les anciens numéros de l'IJF.
Quelques autres articles qui ont examiné la combinaison des prévisions sont ici (à partir de 1989, mais une revue) et ici et ici (examine également les densités) et ici et ici. Beaucoup d'entre eux notent qu'il est encore mal compris pourquoi les combinaisons de prévisions surpassent fréquemment les modèles sélectionnés. L'avant-dernier article porte sur la compétition de prévision M3; une de leurs principales conclusions était (numéro (3) à la p. 458) que "la précision de la combinaison de diverses méthodes surpasse, en moyenne, les méthodes spécifiques étant combinées et fonctionne bien en comparaison avec d'autres méthodes." Le dernier de ces articles révèle que les combinaisons ne fonctionnent pas nécessairement mieux que les modèles simples, mais qu'elles peuvent réduire considérablement le risque de défaillance catastrophique (ce qui est l'un de vos objectifs). Plus de littérature devrait être facilement trouvée dans l' International Journal of Forecasting , le Journal of Forecasting et pour des applications plus spécifiques dans l'économétrie ou la littérature de la chaîne d'approvisionnement.
la source
Pourquoi ne pas le préciser davantage? Je ne pense pas qu'un modèle que vous produieriez pourrait être meilleur ou assez bon qu'un choix spécifique.
Cela dit, si vous pouvez restreindre un peu vos choix à ceux que vous pouvez tester et que l'entrée des données peut être normalisée, alors pourquoi ne pas écrire une procédure de test automatisée dans R?
Supposons que vous décidiez que vos données se situeront dans une fourchette à estimer par cinq modèles ainsi que par un "repli". Disons que vous pouvez caractériser l'entrée par différents tests. Ensuite, allez-y et écrivez un algorithme R (ou un programme comme ça) qui l'exécute pour vous. Cela fonctionne si vous pouvez produire un organigramme du modèle à exécuter en fonction des données de test, c'est-à-dire si l'un des points de l'arbre de décision est binaire.
Si ce n'est pas une option parce que la décision peut ne pas être binaire, je vous suggère de mettre en place un système de notation basé sur des tests applicables et d'exécuter des données simulées "cas extrêmes" via votre grille pour voir si les résultats sont ce que vous recherchez.
Vous pouvez évidemment combiner ces éléments, par exemple, tester la non-stationnarité peut donner un oui-non définitif, tandis que d'autres attributs peuvent tomber dans une plage telle que la multicolinéarité.
Vous pouvez d'abord dessiner ceci sur papier, puis le construire, le simuler avec les distributions connues que vous attendez.
Il suffit ensuite d'exécuter le programme R à chaque fois que de nouvelles données arrivent. Je ne vois pas la nécessité de combiner plusieurs modèles avec les capacités de calcul dont vous disposez probablement.
la source
Il existe des formules agréables et simples pour combiner deux méthodes de prévision, il suffit de les pondérer en multipliant la première par a et l'autre par (1 - a), où a est trouvé en minimisant la variance de cette prévision combinée. Comme vous connaissez les erreurs des deux méthodes de prévision, vous pouvez calculer les erreurs de la combinaison qui dépendra de "a". Le calcul est simple lorsque la moyenne de chaque méthode est = 0. Pour combiner plus de 2 méthodes, les formules sont toujours "simples" dans le sens où vous pouvez les calculer analytiquement "à la main", ou utilisez également l'option Solveur d'EXCEL
la source