Croissance mensuelle désaisonnalisée avec saisonnalité sous-jacente hebdomadaire

9

En tant que passe-temps secondaire, j'ai exploré les séries chronologiques de prévision (en particulier, en utilisant R).

Pour mes données, j'ai le nombre de visites par jour, pour chaque jour remontant à près de 4 ans. Dans ces données, il existe des modèles distincts:

  1. Du lundi au vendredi, il y a beaucoup de visites (le plus haut le lundi / mardi), mais beaucoup moins le samedi et le dimanche.
  2. Certaines périodes de l'année baissent (c.-à-d. Beaucoup moins de visites autour des vacances aux États-Unis, les étés affichent moins de croissance)
  3. Croissance significative d'une année sur l'autre

Ce serait bien de pouvoir prévoir une année à venir avec ces données, et aussi de les utiliser pour avoir une croissance mensuelle désaisonnalisée. La principale chose qui me décourage avec une vue mensuelle est:

  • Certains mois auront plus de lun / mar que d'autres mois (et ce n'est pas constant au fil des ans non plus). Par conséquent, un mois qui arrive à plus de jours de semaine doit être ajusté en conséquence.

L'exploration des semaines semble également difficile puisque les systèmes de numérotation des semaines passent de 52 à 53 selon l'année, et il tsne semble pas que cela soit possible.

J'envisage de prendre une moyenne pour les jours de la semaine du mois, mais l'unité résultante est un peu étrange (croissance des visites moyennes en semaine) et ce serait supprimer des données qui sont valides.

Je pense que ce type de données serait commun dans les séries chronologiques (par exemple, l'utilisation de l'électricité dans un immeuble de bureaux pourrait être quelque chose comme ça), quelqu'un a-t-il des conseils sur la façon de le modéliser, en particulier dans R?

Les données avec lesquelles je travaille sont assez simples, elles commencent comme:

            [,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467

et continue ainsi jusqu'à présent, avec une tendance générale à la croissance, certaines baisses autour des semaines de vacances aux États-Unis et une croissance généralement ralentie pendant l'été.

Kyle Brandt
la source
Un autre aspect intéressant des données est qu'il y a des événements soudains qui interrompent la tendance globale de la croissance d'une période d'environ deux mois. En ce moment cependant, là où j'en suis au stade d'essayer de définir correctement la saisonnalité, j'ignore cet aspect.
Kyle Brandt
Corrigez-moi également si je n'utilise pas correctement la «saisonnalité». Je pense actuellement que c'est un bagout dans l'unité de temps que je dis. Donc, "saisonnalité hebdomadaire" signifie pour moi "un modèle qui se répète chaque semaine".
Kyle Brandt
Hmm,
Voir les réponses à stats.stackexchange.com/questions/14742/… . Pourrait être un point de départ.
Peter Ellis
Peut-être au cœur de cela est la combinaison semaine + année? Il semble ts(et même msts) ne correspond pas à une période d'échantillonnage d'une semaine avec une période "naturelle" d'une année (pas plus que les calendriers, je suppose). Ou, je ne comprends pas comment faire fonctionner ça ...
Kyle Brandt

Réponses:

5

Je modélise donc tout type de données tout le temps. Vous devez intégrer

  • jour de la semaine
  • effets de vacances (effets de plomb, contemporains et de décalage)
  • jours du mois spéciaux
  • peut-être vendredi avant un jour férié ou un lundi après un jour férié
  • effets hebdomadaires
  • effets mensuels
  • Structure ARIMA pour rendre le bruit blanc des erreurs;
  • et.al. .

L'approche statistique est appelée Modélisation des fonctions de transfert avec détection de l'intervention. Si vous souhaitez partager vos données en privé via [email protected] ou de préférence via SE, je serais plus qu'heureux de vous montrer les détails d'un modèle final et de renforcer votre capacité à le faire vous-même ou au moins pour vous aider et d'autres pour comprendre ce qui doit être fait et ce qui peut être fait. Dans les deux cas, vous sortez plus intelligemment sans dépenser de trésor, que ce soit en argent ou en temps. Vous pouvez lire certaines de mes autres réponses aux questions de séries chronologiques pour en savoir plus.

IrishStat
la source