Est-il valable d'agréger une série chronologique pour la rendre plus significative?

10

Une autre question sur les séries chronologiques de ma part.

J'ai un ensemble de données qui donne des enregistrements quotidiens des incidents violents dans un hôpital psychiatrique sur trois ans. Avec l'aide de ma question précédente, je l'ai manipulé et j'en suis un peu plus heureux maintenant.

Ce que j'ai maintenant, c'est que la série quotidienne est très bruyante. Il varie énormément, de haut en bas, de 0 parfois jusqu'à 20. En utilisant des graphiques de Lœss et le package de prévisions (que je peux fortement recommander pour les novices comme moi), je reçois juste une ligne totalement plate, avec des intervalles de confiance massifs à partir des prévisions.

Cependant, l'agrégation hebdomadaire ou mensuelle des données a beaucoup plus de sens. Ils balaient vers le bas depuis le début de la série, puis augmentent à nouveau au milieu. Le tracé de Loess et le package de prévisions produisent tous deux quelque chose qui semble beaucoup plus significatif.

Cela ressemble cependant un peu à de la triche. Suis-je en train de préférer les versions agrégées parce qu'elles ont l'air bien sans réelle validité?

Ou serait-il préférable de calculer une moyenne mobile et de l'utiliser comme base? J'ai peur de ne pas comprendre assez bien la théorie derrière tout cela pour avoir confiance en ce qui est acceptable

Chris Beeley
la source

Réponses:

8

Cela dépend totalement de votre série chronologique et de l'effet que vous souhaitez découvrir / prouver, etc.

Une chose importante ici est, quel genre de périodes avez-vous dans vos données. Faites un spectre de vos données et voyez quelles fréquences sont communes à vos données.

Quoi qu'il en soit, vous ne mentez pas lorsque vous décidez d'afficher des valeurs agrégées. Lorsque vous regardez des effets qui se produisent au cours des semaines (comme, plus de violence en été quand il fait chaud), c'est la bonne chose à faire.

Peut-être que vous pouvez également jeter un œil à la transformation de Hilbert Huang. Cela vous donnera des fonctions en mode intrinsèque qui sont très pratiques pour les analyses visuelles.

Peter Smit
la source
12

Il est très courant de prévoir d'agréger des données afin d'augmenter le rapport signal / bruit. Il existe plusieurs articles sur l'effet de l'agrégation temporelle sur la précision des prévisions en économie, par exemple. Ce que vous voyez probablement dans les données quotidiennes, c'est un signal faible qui est submergé par le bruit, tandis que les données hebdomadaires et mensuelles montrent un signal plus fort qui est plus visible.

Que vous souhaitiez utiliser l'agrégation temporelle dépend entièrement de votre objectif. Si vous avez besoin de prévisions d'incidents quotidiens, l'agrégation ne sera pas très utile. Si vous êtes intéressé à explorer les effets de plusieurs covariables sur la fréquence d'incidence, et que toutes vos données sont disponibles quotidiennement, alors j'utiliserais probablement les données quotidiennes car cela donnera une plus grande taille d'échantillon et vous permettra probablement de détecter les effets plus facilement.

Puisque vous utilisez l'ensemble de prévisions, vous êtes probablement intéressé par la prévision de séries chronologiques. Vous avez donc besoin de prévisions quotidiennes, hebdomadaires ou mensuelles? La réponse déterminera si l'agrégation vous convient.

Rob Hyndman
la source
1

Le problème (dilemme) auquel vous êtes confronté semble être celui de la sélection d'un intervalle d'échantillonnage optimal (ou autrement bon) pour réviser vos prévisions. Pour commencer, voir le texte du lien du célèbre livre de Brown, qui pourrait également être considéré comme une bonne référence. Tout se résume à «équilibrer le risque de ne pas remarquer rapidement un changement par rapport à la variabilité inhérente des données et au coût de réviser fréquemment les plans». Si vous n'êtes pas prêt à réviser quotidiennement vos prévisions (et les décisions qui les ont motivées), vous n'avez pas vraiment besoin d'utiliser les données quotidiennes (les plus bruyantes). Un point important, souvent perdu dans la littérature contemporaine sur les prévisions, est que les prévisions ne sont nécessaires que pour aider à prendre une décision (à moins que l'on sache également comment s'en amuser).

Hibernation
la source