Modèle de série chronologique d'ensemble

13

J'ai besoin d'automatiser les prévisions de séries chronologiques et je ne connais pas à l'avance les caractéristiques de ces séries (saisonnalité, tendance, bruit, etc.).

Mon objectif n'est pas d'obtenir le meilleur modèle possible pour chaque série, mais d'éviter les très mauvais modèles. En d'autres termes, obtenir de petites erreurs à chaque fois n'est pas un problème, mais obtenir de grosses erreurs de temps en temps l'est.

J'ai pensé que je pourrais y parvenir en combinant des modèles calculés avec différentes techniques.

Autrement dit, bien que l'ARIMA soit la meilleure approche pour une série spécifique, elle peut ne pas être la meilleure pour une autre série; de même pour le lissage exponentiel.

Cependant, si je combine un modèle de chaque technique, même si un modèle n'est pas aussi bon, l'autre rapprochera l'estimation de la valeur réelle.

Il est bien connu qu'ARIMA fonctionne mieux pour les séries bien comportées à long terme, tandis que le lissage exponentiel se distingue des séries bruyantes à court terme.

  • Mon idée est de combiner des modèles générés à partir des deux techniques afin d'obtenir des prévisions plus robustes, est-ce sensé?

Il pourrait y avoir plusieurs façons de combiner ces modèles.

  • Si c'est une bonne approche, comment dois-je les combiner?

Une moyenne simple des prévisions est une option, mais je pourrais peut-être obtenir de meilleures prévisions si je pondère la moyenne en fonction d'une mesure de qualité du modèle.

  • Quel serait le traitement de la variance lors de la combinaison de modèles?
João Daniel
la source
Vos idées sonnent bien, mais je ne suis pas sûr d'utiliser des modèles ARIMA adaptés automatiquement . Pour les séries univariées peut-être ... La sagesse conventionnelle est que Holt-Winters est assez robuste utilisé automatiquement, ce qui pourrait être votre référence pour les comparaisons hors échantillon entre les méthodes.
Scortchi - Réintégrer Monica
@Scortchi J'ai oublié de mentionner que toutes les séries sont univariées! ;) Je suis d'accord que Holt-Winters fonctionne vraiment bien lorsqu'il est utilisé automatiquement, mais j'ai l'intention d'obtenir un avis de plus d'un autre modèle, pour éviter les cas où les prévisions ne sont pas si bonnes. Parfois, HW montre un comportement de tendance étrange.
João Daniel
1
Même dans le cas univarié, j'ai du mal à imaginer une procédure automatique - il y a une tendance (stochastique ou déterministe), des transformations possibles, une saisonnalité (multiplicative ou additive) à laquelle réfléchir, et je trouve que pour arriver à un modèle, j'utilise beaucoup de connaissances préalables sur ce qui serait raisonnable pour ce qu'une série particulière représente en réalité. Pourtant, la preuve du pudding est dans l'alimentation - je voulais juste dire de ne pas oublier de faire des comparaisons hors échantillon avec des techniques simples - alors bonne chance avec.
Scortchi - Réintégrer Monica

Réponses:

15

La combinaison des prévisions est une excellente idée. (Je pense qu'il n'est pas exagéré de dire que c'est l'une des rares choses sur lesquelles les prévisionnistes universitaires sont d'accord.)

Il se trouve que j'ai écrit un article il y a quelque temps en examinant différentes façons de pondérer les prévisions en les combinant: http://www.sciencedirect.com/science/article/pii/S0169207010001032 Fondamentalement, l'utilisation des poids (Akaike) n'améliorait pas systématiquement les combinaisons sur des moyens ou des médianes simples ou ajustés / gagnés en erreur, donc j'y penserais à deux fois avant de mettre en œuvre une procédure complexe qui peut ne pas produire un avantage certain (rappelez-vous, cependant, que les combinaisons ont constamment surpassé la sélection des méthodes individuelles par des critères d'information). Bien entendu, cela peut dépendre de la série chronologique que vous possédez.

J'ai examiné la combinaison des intervalles de prédiction dans l'article ci-dessus, mais pas la combinaison de la variance en tant que telle. Il me semble que je me souviens d'un article publié il y a peu de temps dans l' IJF avec cet accent, donc vous voudrez peut-être rechercher "combinaison" ou "combinaison" dans les anciens numéros de l'IJF.

Quelques autres articles qui ont examiné la combinaison des prévisions sont ici (à partir de 1989, mais une revue) et ici et ici (examine également les densités) et ici et ici. Beaucoup d'entre eux notent qu'il est encore mal compris pourquoi les combinaisons de prévisions surpassent fréquemment les modèles sélectionnés. L'avant-dernier article porte sur la compétition de prévision M3; une de leurs principales conclusions était (numéro (3) à la p. 458) que "la précision de la combinaison de diverses méthodes surpasse, en moyenne, les méthodes spécifiques étant combinées et fonctionne bien en comparaison avec d'autres méthodes." Le dernier de ces articles révèle que les combinaisons ne fonctionnent pas nécessairement mieux que les modèles simples, mais qu'elles peuvent réduire considérablement le risque de défaillance catastrophique (ce qui est l'un de vos objectifs). Plus de littérature devrait être facilement trouvée dans l' International Journal of Forecasting , le Journal of Forecasting et pour des applications plus spécifiques dans l'économétrie ou la littérature de la chaîne d'approvisionnement.

Stephan Kolassa
la source
1
Excellent point de vue sur la combinaison de modèles! Votre réponse a été très constructive!
João Daniel
@Stephan Kolassa, auriez-vous des commentaires sur la combinaison des prédicteurs avant et arrière, comme dans la méthode de Burg?
denis
@denis: Je ne suis pas familier avec les prédicteurs avant ou arrière, ni avec la méthode de Burg, désolé ... bien que je suppose que la combinaison de prévisions / prédictions (alias méthodes d'ensemble) sera généralement bénéfique.
Stephan Kolassa
Salut Stephan, super article. Il semble que le site de la revue ait changé et il ne semble plus possible de télécharger votre code R à partir du site principal. L'héberge-t-il sur un site différent maintenant?
Ian
@Ian: vous pourriez ne pas y avoir accès si vous ne vous abonnez pas. Envoyez-moi un e-mail ( trouvez mon adresse ici ), je vous enverrai les scripts. Donnez-moi quelques jours pour les déterrer.
Stephan Kolassa
1

Pourquoi ne pas le préciser davantage? Je ne pense pas qu'un modèle que vous produieriez pourrait être meilleur ou assez bon qu'un choix spécifique.

Cela dit, si vous pouvez restreindre un peu vos choix à ceux que vous pouvez tester et que l'entrée des données peut être normalisée, alors pourquoi ne pas écrire une procédure de test automatisée dans R?

Supposons que vous décidiez que vos données se situeront dans une fourchette à estimer par cinq modèles ainsi que par un "repli". Disons que vous pouvez caractériser l'entrée par différents tests. Ensuite, allez-y et écrivez un algorithme R (ou un programme comme ça) qui l'exécute pour vous. Cela fonctionne si vous pouvez produire un organigramme du modèle à exécuter en fonction des données de test, c'est-à-dire si l'un des points de l'arbre de décision est binaire.

Si ce n'est pas une option parce que la décision peut ne pas être binaire, je vous suggère de mettre en place un système de notation basé sur des tests applicables et d'exécuter des données simulées "cas extrêmes" via votre grille pour voir si les résultats sont ce que vous recherchez.

Vous pouvez évidemment combiner ces éléments, par exemple, tester la non-stationnarité peut donner un oui-non définitif, tandis que d'autres attributs peuvent tomber dans une plage telle que la multicolinéarité.
Vous pouvez d'abord dessiner ceci sur papier, puis le construire, le simuler avec les distributions connues que vous attendez.

Il suffit ensuite d'exécuter le programme R à chaque fois que de nouvelles données arrivent. Je ne vois pas la nécessité de combiner plusieurs modèles avec les capacités de calcul dont vous disposez probablement.

IMA
la source
Limiter les choix est une bonne idée, comme ne pas utiliser de méthodes non saisonnières si les données sont évidemment saisonnières. Mais même dans ce cas, je dirais que la moyenne de plusieurs modèles saisonniers (saisonnalité additive vs multiplicative, avec ou sans tendance, etc.) améliorera en moyenne la précision des prévisions. C'est du moins l'impression que j'ai eue d'une assez grande exposition à la communauté des prévisionnistes ainsi qu'au M3 et aux concours de prévision similaires.
Stephan Kolassa
Avez-vous des documents supplémentaires à ce sujet? Je veux dire que ce serait un sujet de recherche simple mais pertinent. Idée très intéressante, mais intuitivement, je ne suis pas d'accord pour dire que ce serait nécessairement mieux qu'une grille dynamique de modèles.
IMA
Bon point. J'ai modifié ma réponse pour inclure un paragraphe supplémentaire avec plus de pointeurs de littérature. Je conviens que cela est simple et pertinent, et on comprend encore mal pourquoi la moyenne des prévisions améliore généralement la précision.
Stephan Kolassa
Oui, je veux dire que vous pouvez modéliser toutes sortes de problèmes de distribution et les attaquer par ordinateur et fondamentalement. Merci pour les papiers, très intéressants.
IMA
0

Il existe des formules agréables et simples pour combiner deux méthodes de prévision, il suffit de les pondérer en multipliant la première par a et l'autre par (1 - a), où a est trouvé en minimisant la variance de cette prévision combinée. Comme vous connaissez les erreurs des deux méthodes de prévision, vous pouvez calculer les erreurs de la combinaison qui dépendra de "a". Le calcul est simple lorsque la moyenne de chaque méthode est = 0. Pour combiner plus de 2 méthodes, les formules sont toujours "simples" dans le sens où vous pouvez les calculer analytiquement "à la main", ou utilisez également l'option Solveur d'EXCEL

Juan Jose Illingworth
la source
Pouvez-vous faire référence à cette méthode.
horaceT