Élaboration d'un modèle de série chronologique approprié pour prédire les ventes en fonction de l'enregistrement du mois dernier

12

J'exploite une entreprise en ligne depuis deux ans de suite, j'ai donc mes données de ventes mensuelles depuis environ deux ans. Mon entreprise pour chaque mois est certainement affectée par le swing saisonnier (se comporte mieux à Noël, etc.), et probablement par d'autres facteurs que je ne connais pas.

Afin de mieux prévoir les ventes futures, et afin de mesurer l'efficacité de ma campagne de vente ou l'impact de nouveaux concurrents, je veux être en mesure de développer un modèle de série chronologique approprié pour extrapoler mes données de vente actuelles dans le futur. C'est ainsi que lorsque je compare le résultat de ma prédiction avec le résultat réel, je peux tester quantitativement l'efficacité de ma campagne de vente, ou l'impact des concurrents.

Ma question est, étant donné que j'ai 2 ans de données sur les ventes, est-il possible de formuler un modèle de série chronologique prédictif pour cela?

Remarque: je m'intéresse davantage aux concepts et aux théories d'arrière-plan plutôt qu'aux outils de la boîte noire. En parlant d'outils, j'ai Mathica, Matlab, R, Excel, Google Spreadsheet .... vous l'appelez.

Graviton
la source
Quel logiciel utilisez-vous?
Dimitriy V. Masterov
1
@ DimitriyV.Masterov, j'ai Matlab / R / Excel / Mathematica ... vous l'appelez. En fait, je suis plus intéressé par les concepts plutôt que d'écrire le code lui
Graviton

Réponses:

14

Oui, il existe des moyens de procéder. Les gens gagnent leur vie en faisant des trucs comme ça ;-)

Vous recherchez des prévisions causales . Regardez ce manuel en ligne gratuit sur la prévision pour en savoir plus sur la méthodologie de prévision.

Vous avez deux problèmes clés à résoudre: la saisonnalité (ou plus généralement, la structure des séries chronologiques, éventuellement avec autorégression) d'une part, et les effets de causalité comme les promotions d'autre part. Le chapitre 8 du manuel ci-dessus traite des éléments des séries chronologiques dans le contexte d'ARIMA, tandis que le chapitre 5 traite des effets de causalité.

Heureusement, il est possible de résoudre les deux problèmes en calculant soit des modèles dits ARIMAX (le X signifie «effets externes», c'est-à-dire ARIMA avec des effets externes), soit des régressions avec des erreurs ARIMA. Voir le billet de blog de Rob Hyndman sur "La confusion du modèle ARIMAX" pour la différence. La auto.arima()fonction dans le forecastpackage R s'adaptera à une régression avec des erreurs ARIMA. Passons en revue un exemple, où je prends un ensemble de données standard avec une tendance et une saisonnalité fortes et j'ajoute des "promotions".

library(forecast)
AirPassengers # a built-in dataset
#      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
# 1949 112 118 132 129 121 135 148 148 136 119 104 118
# 1950 115 126 141 135 125 149 170 170 158 133 114 140
# 1951 145 150 178 163 172 178 199 199 184 162 146 166
# 1952 171 180 193 181 183 218 230 242 209 191 172 194
# 1953 196 196 236 235 229 243 264 272 237 211 180 201
# 1954 204 188 235 227 234 264 302 293 259 229 203 229
# 1955 242 233 267 269 270 315 364 347 312 274 237 278
# 1956 284 277 317 313 318 374 413 405 355 306 271 306
# 1957 315 301 356 348 355 422 465 467 404 347 305 336
# 1958 340 318 362 348 363 435 491 505 404 359 310 337
# 1959 360 342 406 396 420 472 548 559 463 407 362 405
# 1960 417 391 419 461 472 535 622 606 508 461 390 432

set.seed(1) # for reproducibility
promos <- rep(0,length(AirPassengers))
promos[sample(seq_along(AirPassengers),10)] <- 1
promos.future <- c(0,1,0,0,1,0,0,1,0,0,1,0)
AP.with.promos <- AirPassengers
AP.with.promos[promos==1] <- AP.with.promos[promos==1]+120

model <- auto.arima(AP.with.promos,xreg=promos)
summary(model) # examine the model - you'll see the estimated promo coefficient
# Series: AP.with.promos 
# ARIMA(0,1,1)(0,1,0)[12]                    

# Coefficients:
#           ma1    promos
#       -0.3099  122.2599
# s.e.   0.0947    2.2999

# sigma^2 estimated as 151.2:  log likelihood=-457.4
# AIC=920.79   AICc=920.98   BIC=929.42

# Training set error measures:
#                     ME     RMSE     MAE        MPE     MAPE      MASE         ACF1
# Training set 0.2682805 11.12974 8.24397 0.06139784 2.867274 0.1860814 0.0008326436

fcast <- forecast(model,xreg=promos.future,h=length(promos.future))
fcast
#          Point Forecast    Lo 80    Hi 80    Lo 95    Hi 95
# Jan 1961       447.1516 431.3951 462.9081 423.0542 471.2490
# Feb 1961       543.4115 524.2670 562.5559 514.1326 572.6904
# Mar 1961       449.1516 427.1345 471.1687 415.4793 482.8239
# Apr 1961       491.1516 466.5956 515.7076 453.5964 528.7068
# May 1961       624.4115 597.5556 651.2674 583.3389 665.4841
# Jun 1961       565.1516 536.1777 594.1255 520.8399 609.4633
# Jul 1961       652.1516 621.2044 683.0988 604.8220 699.4812
# Aug 1961       758.4115 725.6095 791.2135 708.2452 808.5778
# Sep 1961       538.1516 503.5942 572.7090 485.3006 591.0026
# Oct 1961       491.1516 454.9237 527.3795 435.7459 546.5573
# Nov 1961       542.4115 504.5869 580.2361 484.5637 600.2593
# Dec 1961       462.1516 422.7950 501.5082 401.9608 522.3424
promos.ts <- ts(c(AP.with.promos,fcast$mean),
                  start=start(AirPassengers),frequency=frequency(AirPassengers))
promos.ts[c(promos,promos.future)==0] <- NA

plot(fcast)
points(promos.ts,pch=19,col="red")

ARIMAX

Les points rouges sont les promotions. Par défaut, vous obtiendrez des intervalles de prédiction tracés en gris. Vous pouvez alimenter plusieurs régresseurs dans votre modèle via le xregparamètre, ce que vous devez faire si vous avez différents types de promotions avec des effets différents. Expérimentez un peu.

Je recommanderais de regarder des données plus fines que mensuelles si vous les avez, par exemple, hebdomadairement. Surtout bien sûr si vos promotions ne durent pas pendant des mois entiers. Vous pouvez le faire séparément par produit, surtout si vous faites la promotion de produits spécifiques ou sur des catégories entières.

Une alternative serait, étant donné que vous êtes plus intéressé par les concepts que par le code, d'examiner le lissage exponentiel et de le modifier en fonction de vos besoins, en ajoutant des composants promotionnels aux composants standard à trois niveaux, saison et tendance. Vous pouvez faire beaucoup plus vous-même avec le lissage exponentiel qu'en essayant d'estimer au maximum la probabilité d'un modèle ARIMAX, mais le lissage peut devenir un peu un cauchemar de comptabilité si vous avez plusieurs types de promotion.

Stephan Kolassa
la source
1
Les modèles ARIMA avec covariables sont discutés dans la section 9 du livre: www.otexts.org/fpp/9/1
Rob Hyndman
Merci, Rob. J'ai vraiment besoin de parcourir le livre plus souvent ...
Stephan Kolassa
Merci @StephanKolassa! une question secondaire, puis-je obtenir le livre que vous mentionnez dans le post ci-dessus, au format mobi ou epub?
Graviton
1
@Graviton: bonne question. Mieux vaut demander aux auteurs. L'un d'eux est Rob Hyndman, qui a commenté ci-dessus.
Stephan Kolassa
1
@Graviton. J'y travaille. Voir robjhyndman.com/hyndsight/fpp-amazon
Rob Hyndman
4

tout d'abord, vous n'avez pas beaucoup de données avec lesquelles jouer, seulement 24 observations. Dans votre cas, cela signifie que vous avez à peine quelques paramètres pour estimer de manière fiable. la manière la plus systématique dans la prévision est de proposer un processus de génération de données (DGP). vous faites une hypothèse sur le véritable processus de vos ventes, puis essayez d'estimer ses paramètres.

considérons un modèle de série temporelle pur avec AR (1) DGP: , c'est-à-dire que vos ventes ce mois-ci sont la moyenne pondérée des ventes du mois dernier plus et une constante. vous avez déjà 3 paramètres (deux coefficients et une variance d'erreur), ce qui signifie environ 8 observations par paramètre - clairement pas beaucoup.xt=ϕxt1+c

puisque vos ventes sont saisonnières, nous devons y faire quelque chose. une façon consiste à ajouter une saisonnalité multiplicative : en notation d'opérateur de décalage, ou sous forme développée: . cela ajoute un paramètre de plus à estimer, donc vous descendez à 6 observations par paramètre - un véritable tronçon.x t = c + ϕ 1 x t - 1 + ϕ 12 x t - 12 - ϕ 1 ϕ 12 x r - 13(1L)(1L12)xt=cxt=c+ϕ1xt1+ϕ12xt12ϕ1ϕ12xr13

dans Matlab ce modèle est spécifié comme arima('ARLags',1,'SARLags',12)

cela suppose que vos ventes sont stables, c'est-à-dire qu'elles ne progressent généralement pas.

si vous pensez que vos ventes augmentent, alors vous avez deux options: marche aléatoire (RW) et tendance temporelle.

dans Matlab RW est spécifié avec arima('D',1,'SARLags',12)

de toute évidence, ce ne sont que des exemples de différents DGP. quoi que vous fassiez, gardez à l'esprit le nombre de paramètres à estimer. avec 24 observations votre modèle doit être très simple, 4 paramètres au maximum (y compris les variances).

Aksakal
la source
0

Voici ce que vous devez faire Créez deux graphiques:

  • Ventes vs temps pour l'ensemble des 24 mois
  • Ventes vs temps avec la deuxième année tracée en haut de la première année

Regarde-les. Annoter les dates de toute promotion spéciale ou activité concurrentielle connue. "Décembre" est généralement assez évident, mais ajoutez une note si cela peut aider à le dire.

Allez-y et adaptez un modèle de série chronologique - n'importe quel modèle (il y en a des centaines). Le modèle peut vous donner une prévision légèrement meilleure pour la prochaine période (t + 1) que votre jugement. Au moins, cela remettra en cause votre jugement. Au-delà de la période suivante (t + n, n> 1), tout modèle de série chronologique est de la merde. † Alors, oubliez d'évaluer quantitativement l'efficacité des campagnes de vente ou les effets des concurrents. Si vous comparez les ventes réelles aux prévisions, vous constaterez que les prévisions sont nulles. Il est difficile de prédire l'avenir et aucune méthode ne modifie ce fait fondamental.

Vous trouverez vos deux graphiques plus utiles. Étudiez-les pendant un certain temps, puis passez le reste de votre temps à trouver des idées pour augmenter les ventes - ce sera une utilisation beaucoup plus rentable de votre temps que d'essayer d'adapter un modèle de série chronologique.

† Vous avez plus d'espoir si vous pouvez créer un modèle prédictif basé sur des indicateurs avancés - c'est-à-dire que les ventes de logements pour le mois précédent peuvent être utiles pour prédire les ventes de stores pour les fenêtres du mois en cours.

noircit
la source