Désaisonnalisation des données de comptage

12

J'ai utilisé stl () dans R pour décomposer les données de comptage en composantes de tendance, saisonnières et irrégulières. Les valeurs de tendance résultantes ne sont plus des nombres entiers. J'ai les questions suivantes:

  1. Stl () est-il un moyen approprié de désaisonnaliser les données de comptage?
  2. Étant donné que la tendance résultante n'est plus évaluée par des nombres entiers, puis-je utiliser lm () pour modéliser les composants de tendance?
ann
la source

Réponses:

8

Il n'y a aucun problème inhérent à l'utilisation de stl () pour désaisonnaliser les données de comptage. Une question à prendre en compte est cependant que les données de comptage a généralement un écart de plus en plus que les augmentations moyennes. Cela se voit souvent dans les éléments saisonniers et aléatoires de la décomposition. L'utilisation de stl () sur les données brutes ne tiendra pas compte de cela, et il est donc préférable de prendre d'abord le logarithme (modifier - ou racine carrée) de vos données.

Peu importe que les valeurs de tendance ne soient plus des entiers. Ils peuvent être pensés de manière similaire au paramètre dans une distribution de Poisson. Bien qu'une variable distribuée de Poisson doive être un entier, la moyenne n'a pas besoin de l'être.

Cependant, cela ne signifie pas nécessairement que vous pouvez utiliser lm () pour modéliser la composante de tendance. Il existe de nombreux pièges dans la modélisation des tendances dans les séries chronologiques, car les corrélations fallacieuses seront très difficiles à éviter. Le plus souvent, les gens détournent d'abord la série, puis modélisent la partie résiduelle.

Peter Ellis
la source
1
Comment déterminez-vous le nombre de tendances qui doivent être prises en compte et la durée de chaque tendance? Faites-vous une distinction entre les changements de niveau et les tendances et, en général, comment détruisez-vous en présence de valeurs aberrantes / aberrantes?
IrishStat
@IrishStat - oui, ce sont tous de bons points et je n'essayais pas de résoudre l'ensemble des problèmes, il suffit d'attirer l'attention sur les problèmes d'utilisation de la composante de tendance de la sortie de R stl () comme variable de réponse dans une régression . stl () utilise une régression pondérée localement dans sa décomposition, ce qui donne généralement des résultats sensibles en ce qui concerne les tendances changeant de direction, etc., bien qu'il présente bien sûr des limites par rapport aux méthodes basées sur un modèle, en particulier pour les prévisions.
Peter Ellis