Comment choisissez-vous une unité d'analyse (niveau d'agrégation) dans une série chronologique?

13

Si vous pouvez mesurer une série chronologique d'observations à n'importe quel niveau de précision dans le temps, et que votre objectif de l'étude est d'identifier une relation entre X et Y, existe-t-il une justification empirique pour choisir un niveau spécifique d'agrégation plutôt qu'un autre, ou devrait le choix se fait simplement sur la base de limites théoriques et / ou pratiques?

J'ai trois sous-questions à cette principale:

  1. Y a-t-il une variation non aléatoire de X ou Y à l'intérieur d'un niveau plus élevé, un raisonnement suffisant pour choisir un niveau d'agrégation plus petit (où non aléatoire est un modèle temporel des observations)?

  2. Une variation de la relation entre X et Y à un niveau d'agrégation plus petit est-elle un raisonnement suffisant pour justifier la plus petite unité d'analyse? Si une certaine variation est acceptable, comment décide-t-on de la quantité excessive?

  3. Les gens peuvent-ils citer des arguments qu'ils jugent convaincants / bien définis pour une unité d'analyse par rapport à une autre, soit pour des raisons empiriques, soit pour des raisons théoriques?

Je connais bien le problème des unités de surface modifiables en analyse spatiale ( Openshaw 1984 ). Je ne prétends pas être expert en la matière, mais tout ce que je dois penser jusqu'à présent, c'est qu'une unité d'analyse plus petite est toujours meilleure, car on est moins susceptible de commettre une erreur écologique ( Robinson 1950 ). Si l'on a une référence ou une réponse directement pertinente concernant les unités géographiques d'agrégation, j'apprécierais également cette réponse.

Andy W
la source

Réponses:

9

introduction

Mon intérêt pour le sujet est maintenant d'environ 7 ans et a débouché sur des séries chronologiques de thèse : agrégation, désagrégation et longue mémoire , où une attention particulière a été accordée à une question spécifique du problème de désagrégation transversale pour le schéma AR (1).

Les données

En travaillant avec différentes approches d'agrégation, la première question que vous devez clarifier est le type de données que vous traitez (je suppose que c'est spatial, le plus excitant). Dans la pratique, vous pouvez considérer l'agrégation temporelle (voir Silvestrini, A. et Veridas, D. (2008) ), transversale (j'ai adoré l'article de Granger, CWJ (1990) ) ou à la fois le temps et l'espace (l'agrégation spatiale est bien étudiée dans Giacomini, R. et Granger, CWJ (2004) ).

Réponses (longues)

Maintenant, répondant à vos questions, je mets d'abord une intuition approximative. Étant donné que les problèmes que je rencontre dans la pratique sont souvent basés sur des données inexactes (hypothèse d'Andy

vous pouvez mesurer une série chronologique d'observations à n'importe quel niveau de précision dans le temps

semble trop fort pour la macro-économétrie, mais bon pour la finance et la micro-économétrie ou tout autre domaine expérimental, si vous contrôliez assez bien la précision) Je dois garder à l'esprit que mes séries chronologiques mensuelles sont moins précises que lorsque je travaille avec données annuelles. En plus de séries temporelles plus fréquentes au moins en macroéconomie n'ont des motifs saisonniers , qui peuvent conduire à fauxrésultats (les parties saisonnières ne sont pas en corrélation avec la série), vous devez donc ajuster les données de manière saisonnière - une autre source de précision plus petite pour les données à fréquence plus élevée. Travailler avec des données transversales a révélé qu'un niveau élevé de désagrégation pose plus de problèmes avec probablement beaucoup de zéros à traiter. Par exemple, un ménage particulier dans le panel de données peut acheter une voiture une fois tous les 5 à 10 ans, mais la demande agrégée de voitures neuves (d'occasion) est beaucoup plus fluide (même pour une petite ville ou une région).

L' agrégation des points les plus faibles entraîne toujours la perte d'informations, vous pouvez avoir le PIB produit par la section transversale des pays de l'UE pendant toute la décennie (disons la période 2001-2010), mais vous perdrez toutes les caractéristiques dynamiques qui peuvent être présentes dans votre analyse en considérant l'ensemble de données de panel détaillé. L'agrégation transversale à grande échelle peut devenir encore plus intéressante: vous, en gros, prenez des choses simples (mémoire courte AR (1)) en moyenne sur une population assez grande et obtenez un agent de mémoire long "représentatif" qui ne ressemble à aucun des micro unités (une pierre de plus au concept de l'agent représentatif). Donc agrégation ~ perte d'informations ~ différentes propriétés des objets et vous souhaitez prendre le contrôle du niveau de cette perte et / ou de nouvelles propriétés. À mon avis, il est préférable d'avoir des données de micro niveau précises à la fréquence la plus élevée possible, mais ...

Techniquement, pour produire une analyse de régression, vous avez besoin de plus d'espace (degrés de liberté) pour être plus ou moins confiant que (au moins) statistiquement, vos résultats ne sont pas indésirables, bien qu'ils puissent toujours être théoriques et indésirables :) Donc, je mets égal pondération aux questions 1 et 2 (choisissez généralement des données trimestrielles pour la macro-analyse). Répondant à la 3ème sous-question, tout ce que vous décidez dans les applications pratiques ce qui est le plus important pour vous: des données plus précises ou des degrés de liberté. Si vous tenez compte de l'hypothèse mentionnée, les données plus détaillées (ou à fréquence plus élevée) sont préférables.

La réponse sera probablement modifiée ultérieurement après une sorte de discussion, le cas échéant.

Dmitrij Celov
la source
Merci pour votre réponse. Il me faudra au moins quelques jours pour traiter les documents que vous avez présentés. Je voudrais également dire que votre thèse est incroyablement agréable et après avoir lu votre introduction, j'ai hâte de lire le reste.
Andy W