Supposons que j'ai un peu plus de 20 000 séries chronologiques mensuelles s'étendant de janvier 2005 à décembre 2011. Chacun d'eux représente les données de ventes mondiales pour un produit différent. Et si, au lieu de calculer des prévisions pour chacun d'entre eux, je voulais me concentrer uniquement sur un petit nombre de produits qui "comptent réellement"?
Je pourrais classer ces produits en fonction du revenu annuel total et réduire la liste en utilisant Pareto classique. Pourtant, il me semble que, même s'ils ne contribuent pas beaucoup au résultat net, certains produits sont si faciles à prévoir que les laisser de côté serait un mauvais jugement. Un produit qui a vendu 50 $ par mois au cours des 10 dernières années peut ne pas sembler beaucoup, mais il nécessite si peu d'efforts pour générer des prévisions sur les ventes futures que je pourrais aussi bien le faire.
Supposons donc que je divise mes produits en quatre catégories: revenus élevés / faciles à prévoir - revenus faibles / faciles à prévoir - revenus élevés / difficiles à prévoir - revenus faibles / difficiles à prévoir.
Je pense qu'il serait raisonnable de ne laisser que les séries chronologiques appartenant au quatrième groupe. Mais comment puis-je évaluer exactement la "prévisibilité"?
Le coefficient de variation semble être un bon point de départ (je me souviens également avoir vu un article à ce sujet il y a un certain temps). Mais que se passe-t-il si mes séries chronologiques présentent une saisonnalité / des changements de niveau / des effets de calendrier / de fortes tendances?
J'imagine que je devrais baser mon évaluation uniquement sur la variabilité de la composante aléatoire et non sur celle des données "brutes". Ou est-ce que je manque quelque chose?
Quelqu'un est-il déjà tombé sur un problème similaire? Comment vous y prendriez-vous?
Comme toujours, toute aide est grandement appréciée!
Il s'agit d'un problème assez courant dans les prévisions. La solution traditionnelle consiste à calculer les erreurs de pourcentage absolu moyen (MAPE) sur chaque élément. Plus le MAPE est bas, plus l'article est facile à prévoir.
Un problème avec cela est que de nombreuses séries contiennent des valeurs nulles et MAPE n'est pas défini.
J'ai proposé une solution dans Hyndman et Koehler (IJF 2006) [version préimprimée] en utilisant des erreurs d'échelle absolues moyennes (MASE). Pour les séries chronologiques mensuelles, la mise à l'échelle serait basée sur des prévisions saisonnières naïves dans l'échantillon. C'est-à-dire que si est une observation au temps , les données sont disponibles des temps 1 à et alors une erreur mise à l'échelle est , où est une prévision de utilisant la méthode de prévision que vous implémentez pour cet élément. Prenez la valeur absolue moyenne des erreurs mises à l'échelle pour obtenir le MASE. Par exemple, vous pouvez utiliser une origine mobile (akayt t T Q=1T−12∑t=13T|yt−yt−12|, qt=(yt−y^t)/Q y tythy^t yt validation croisée des séries chronologiques ) et prendre la valeur absolue moyenne des erreurs résultantes en une étape (ou en ).h
Les séries faciles à prévoir doivent avoir de faibles valeurs de MASE. Ici, «facile à prévoir» est interprété par rapport aux prévisions saisonnières naïves. Dans certaines circonstances, il peut être plus judicieux d'utiliser une autre mesure de base pour mettre à l'échelle les résultats.
la source
Vous pourriez être intéressé par ForeCA: analyse des composants prévisibles (avertissement: je suis l'auteur). Comme son nom l'indique, il s'agit d'une technique de réduction de dimension / séparation aveugle des sources (BSS) pour trouver la plupart des signaux prévisibles à partir de nombreuses séries temporelles multivariées - plus ou moins stationnaires. Pour votre cas particulier de 20000 séries temporelles, ce n'est peut-être pas la chose la plus rapide à faire (la solution implique des spectres de puissance multivariés et une mise à jour analytique itérative du meilleur vecteur de poids; en outre, je suppose que cela pourrait rencontrer le problème .)p≫n
Il existe également un package R ForeCA disponible au CRAN (encore une fois: je suis l'auteur) qui implémente les fonctionnalités de base; en ce moment, il prend en charge la fonctionnalité d'estimation de la mesure de prévisibilité pour les séries temporelles univariées et il a de bonnes fonctions d'encapsulation pour les spectres multivariés (encore 20000 séries temporelles sont probablement trop à gérer à la fois).Ω(xt)
Mais vous pouvez peut-être essayer d'utiliser la mesure MASE proposée par Rob pour effectuer une séparation grossière du réseau des 20 000 dans plusieurs sous-groupes, puis appliquer ForeCA à chacun séparément.
la source
Cette réponse est très tardive, mais pour ceux qui recherchent toujours une mesure appropriée de la prévisibilité pour les séries chronologiques de la demande de produits, je suggère fortement de regarder l' entropie approximative .
La demande de produits a tendance à avoir une très forte composante saisonnière, ce qui rend le coefficient de variation (CV) inapproprié. ApEn (m, r) est capable de gérer correctement cela. Dans mon cas, comme mes données ont tendance à avoir une forte saisonnalité hebdomadaire, j'ai défini les paramètres m = 7 et r = 0,2 * std comme recommandé ici .
la source