Prévision des intervalles de Poisson, de précision et de prédiction

8

J'essaie de prévoir des Poissondonnées, divisées en groupes, de 1-26 months of data, selon le groupe. Des données regroupées 65% has a value of 0et 25% a value of 1. Je n'ai trouvé aucune tendance ou saisonnalité, j'ai donc commencé à tester quelques modèles stationnaires différents. Moving average (3), Moving Average (6), Simple Exponential Smoothing, NaïveEt Simple Mean.

Je dois prévoir 1 à 6 mois à l'avance et l'utiliser MAD, MSEet RMSEtester la précision des modèles. Il semble que le plus précis soit Simple Mean, avec un RMSE of 1et un MAD of 0,638. Je pense que c'est vraiment élevé, mais je ne sais pas comment faire quoi que ce soit à ce sujet.

Y a-t-il des méthodes de prévision auxquelles je ne pensais pas qui pourraient être bien meilleures? Suis-je en train de regarder quelque chose?

La seule chose que j'ai pu trouver sur les intervalles de prédiction était F+tset F-tsavec Fcomme prévision, tcomme distribution t avec alfa (n-2)et scomme écart-type. Il ne pense pas que c'était une source vraiment fiable mais comme je n'ai pas pu trouver autre chose, je ne sais pas comment configurer ces intervalles de prédiction. Cette méthode est-elle correcte?

Je n'ai pas de R à utiliser. Je dois le faire moi-même.

R. White
la source

Réponses:

11

Vous avez ce que l'on appelle la demande intermittente , c'est-à-dire une série chronologique de demande caractérisée par "plusieurs" zéros. (Si votre série chronologique n'est pas la demande en soi, la plupart de ce qui suit s'applique toujours.) Une recherche sur le Web pour "prévoir la demande intermittente" serait donc déjà utile. Teunter et Duncan (2009, JORS) donnent un aperçu des méthodes de prévision de la demande intermittente.

La méthode standard de prévision des demandes intermittentes est la méthode de Croston. Utilisez séparément le lissage exponentiel sur les intervalles entre demandes et sur les tailles de demande non nulles . La prévision ponctuelle est alors le rapport de la demande non nulle lissée à l'intervalle inter-demande lissé. Syntetos et Boylan (2001, IJPE) notent que Croston est légèrement biaisé et propose une modification, mais cela ne fait généralement pas beaucoup de différence dans la pratique.

Une alternative est les modèles de moyenne mobile autorégressifs entiers (INARMA), qui modifient les modèles de séries chronologiques ARIMA standard. Maryam Mohammadipour a rédigé une thèse à ce sujet.

Personnellement, j'ai des doutes majeurs quant à l'utilité d'une telle prévision de point d'attente. Une série chronologique de 1 demande toutes les deux périodes a une attente de 0,5 ... tout comme une série chronologique de 2 demandes toutes les quatre périodes ... et ainsi de suite - bien que celles-ci soient, bien sûr, de moins en moins Poisson-y . Je dirais qu'il est beaucoup plus utile de comprendre toute la distribution future (et prédictive) des demandes. J'applaudis donc votre recherche d'intervalles de prédiction!

Cependant, la formule vous avez trouvée ne s'applique qu'au lissage exponentiel unique sur des données continues , via le modèle ARIMA SES est optimal pour. Il est donc inapplicable de compter les données. Je préférerais de loin que vous preniez votre prédiction ponctuelle et que vous utilisiez les quantiles de la distribution de Poisson avec le paramètre . Cela ne tient toujours pas compte de l'incertitude d'estimation des paramètres (ainsi que de l'incertitude de sélection du modèle, etc.), mais c'est une possibilité simple et probablement meilleure que la formule que vous avez.α(n2)y^λ=y^

Shenstone et Hyndman (2005, JoF) notent qu'il n'y a pas de modèle stochastique cohérent pour lequel la méthode de Croston serait optimale - tous les modèles candidats sont (1) continus, non discrets, et (2) peuvent donner des valeurs négatives. Cependant, pour ces modèles candidats, Shenstone et Hyndman fournissent des intervalles de prédiction.

Enfin, une mise en garde: n'utilisez pas le MAD pour évaluer l'exactitude des prévisions de données de comptage, surtout pas pour les demandes intermittentes. Le MAD attendu est minimisé par la médiane de votre distribution future, pas sa moyenne , et si vous écrivez que 65% de vos données sont des zéros, alors la médiane est nulle ... ce qui implique que vous obtiendrez probablement le MAD le plus bas par un plat prévision zéro, qui est fortement biaisée et probablement inutile. Voici une présentation que j'ai faite au Symposium international de l'année dernière sur les prévisions à ce sujet. Ou regardez Morlidge (2015, Foresight) .

Dernière pièce de l'autopromotion sans vergogne: J'ai un article dans l'IJF (Kolassa, 2016) qui examine les prévisions de données de faible volume (principalement intermittentes), différentes mesures de précision et différentes méthodes de prévision, y compris diverses saveurs de modèles de Poisson. Cela peut vous être utile.

Stephan Kolassa
la source
1
Merci pour la réaction Stephan. Vous me donnez beaucoup de nouvelles connaissances et idées, je change complètement de cap. J'aimerais beaucoup un PDF de votre manuscrit, je pense que ce serait vraiment utile
R. White
1
Une autre question, si cela ne vous dérange pas. cet article décrit comment tester l'intermittence dans mes données. Maintenant, je remarque que beaucoup de médianes qipar groupe ont une valeur de 1. Plus bas n'est pas vraiment possible, ce qui supposerait que la plupart de mes groupes ne sont pas intermittents, non?
R. White
1
Cette classification est nouvelle pour moi. Ce n'est certainement pas courant dans la littérature universitaire. Cependant, je connais les auteurs de ce document SAS et ils savent généralement ce qu'ils font. Je vous recommande d'essayer des méthodes intermittentes et non intermittentes sur vos données et de voir celle qui fonctionne le mieux - puis de voir si cela a quelque chose à voir avec les critères donnés dans le document SAS. Syntetos et Boylan (2005) et Boylan et al. (2008) donnent des classifications alternatives.
Stephan Kolassa
3
Les demandes intermittentes sont difficiles à prévoir. Le problème est que la différence entre une demande nulle et une demande non nulle est (relativement!) Importante - et que nous ne savons généralement pas quand la demande non nulle se produira. Je vous suggère d'exécuter quelques simulations. Simulez des variables aléatoires de Poisson et vérifiez quel RMSE vous obtenez lorsque vous prévoyez l'attente (connue!). Cela simule la situation où vous savez à quel point la demande est élevée en moyenne , mais vous ne savez pas quand la demande se produira. Vous constaterez probablement que les RMSE sont assez grandes.
Stephan Kolassa
2
Conclusion: à moins que vous ne puissiez prévoir quand la demande se produira, les demandes intermittentes sont simplement difficiles à prévoir. En outre, si vous prévoyez que la demande se produira dans la période , mais il ne se produire dans la période , qui peut être tout à fait OK pour vos processus consommateurs de prévisions - mais RMSE et d' autres mesures d'erreur encore compter cela comme un échec. Il y a eu des idées de Kourentzes (2014 - citées dans mon article) pour des mesures d'erreur s'appuyant sur des prévisions et des demandes cumulatives qui pénalisent moins fortement ce type d '"erreur de synchronisation" que des "erreurs de synchronisation" plus importantes. tt+1
Stephan Kolassa