Je travaille sur le développement d'un modèle pour prédire les ventes totales d'un produit. J'ai environ un an et demi de données sur les réservations, donc je pourrais faire une analyse de série chronologique standard. Cependant, j'ai également beaucoup de données sur chaque «opportunité» (vente potentielle) qui a été fermée ou perdue. Les «opportunités» progressent le long des étapes d'un pipeline jusqu'à ce qu'elles soient fermées ou perdues; ils ont également des données associées sur l'acheteur potentiel, le vendeur, l'historique des interactions, l'industrie, la taille estimée des réservations, etc.
Mon objectif est finalement de prédire le total des réservations, mais je veux prendre en compte toutes ces informations sur les «opportunités» actuelles qui sont la véritable «cause première» des réservations.
Une idée que j'ai est d'utiliser deux modèles différents en série comme suit:
Utilisez des «opportunités» historiques pour construire un modèle qui prédit les réservations résultant d'une «opportunité» individuelle (j'utiliserais probablement des forêts aléatoires ou même une régression linéaire simple pour cette étape).
Utilisez le modèle de 1 pour prédire les réservations estimées de toutes les «opportunités» actuellement dans le pipeline, puis additionnez ces estimations en fonction du mois où chaque «opportunité» a été créée.
Utilisez un modèle de série chronologique (éventuellement ARIMA?), En utilisant les données mensuelles historiques de série chronologique de 1,5 an ET le total des réservations prévues (en utilisant le modèle de 1) pour toutes les `` opportunités '' créées au cours de ce mois.
Il est vrai qu'il y aurait un décalage dans la conversion de ces opportunités en réservations réelles, mais le modèle de série chronologique devrait être capable de gérer ce décalage.
Comment ça sonne? J'ai fait beaucoup de lecture sur les séries chronologiques et la prévision des ventes, et d'après ce que je peux en dire, c'est une approche quelque peu unique. Par conséquent, j'apprécierais vraiment tout commentaire!
la source
Réponses:
Vous pouvez vous retrouver avec un modèle qui semble convenir à vos données actuelles, mais il se décollera dès que vous essayez de produire une prévision hors échantillon. Pensez à produire vos prévisions pour 6 mois. Vous n'avez aucun moyen de savoir quelles seront les opportunités dans six mois, vous allez donc devoir créer un autre ensemble de modèles prédisant chacune des entrées de votre modèle d'opportunité. Et, une fois que vous aurez fait cela, vous aurez beaucoup de modèles qui alimenteront votre modèle principal, mais chacun des petits modèles aura sa propre erreur de prédiction qui lui sera attachée, et ceux-ci seront composés, mais votre modèle principal ne le sera pas les connaître et, par conséquent, tous vos intervalles de prédiction seront fortement dégonflés.
la source