Comment remplir les données manquantes dans les séries chronologiques?

16

J'ai un grand ensemble de données sur la pollution qui ont été enregistrées toutes les 10 minutes pendant 2 ans, mais il y a un certain nombre de lacunes dans les données (y compris certaines qui durent quelques semaines à la fois).

Les données semblent être assez saisonnières et il y a une grande variation pendant la journée par rapport à la nuit où les valeurs n'ont pas beaucoup de variation et les points de données sont plus faibles.

J'ai envisagé d'adapter un modèle de Loess aux sous-ensembles de jour et de nuit séparément (car il y a une différence évidente entre eux), puis de prédire les valeurs des données manquantes et de remplir ces points.

Je me demandais si c'était une manière appropriée d'aborder ce problème, et aussi s'il y avait un besoin d'ajouter une variation locale dans les points prévus.

Jamesm131
la source

Réponses:

21

La réponse dépendra de la conception de votre étude (par exemple, séries chronologiques transversales? Séries chronologiques de cohortes, séries chronologiques de cohortes en série?). Honaker et King ont développé une approche qui est utile pour les séries chronologiques transversales (peut-être utile pour les séries chronologiques de cohortes en série, selon vos hypothèses), y compris le package R Amelia II pour imputer ces données. Pendant ce temps, Spratt & Co. ont décrit une approche différente qui peut être utilisée dans certaines conceptions de séries chronologiques de cohortes, mais qui est rare sur les implémentations logicielles.

Un plan de séries chronologiques transversales (ou plan d'étude par panel) est un plan dans lequel une ou des populations sont échantillonnées à plusieurs reprises (par exemple, chaque année), en utilisant le même protocole d'étude (par exemple, les mêmes variables, les mêmes instruments, etc.). ). Si la stratégie d'échantillonnage est représentative, ces types de données produisent une image annuelle (une mesure par participant ou sujet) des distributions de ces variables pour chaque population de l'étude.

Un plan de série chronologique de cohorte (ou plan d'étude de cohortes répétées, plan d'étude longitudinale, parfois aussi appelé plan d'étude par panel) est un plan dans lequel des unités individuelles d'analyse sont échantillonnées une fois et suivies sur une longue période. Les individus peuvent être échantillonnés de manière représentative dans une ou plusieurs populations. Cependant, un échantillon représentatif de séries chronologiques de cohorte deviendra un représentant de plus en plus pauvre de la population cible (au moins dans les populations humaines) à mesure que le temps passe, en raison du fait que des personnes naissent ou vieillissent dans la population cible, et en meurent ou vieillissent, le long avec l'immigration et l'émigration.

Un plan de série chronologique de cohortes en série (alias cohortes répétées, multi et multiples, ou plan d'étude par panel) est un plan dans lequel une ou des populations sont échantillonnées de manière répétée (par exemple, chaque année), en utilisant le même protocole d'étude ( (par exemple, mêmes variables, instruments, etc.), qui mesure des unités d'analyse individuelles au sein d'une population à deux moments de la période (par exemple, au cours de l'année) afin de créer des mesures du taux de variation. Si la stratégie d'échantillonnage est représentative, ces types de données produisent une image annuelle des taux de variation de ces variables pour chaque population de l'étude.

Références
Honaker, J. et King, G. (2010). Que faire en cas de valeurs manquantes dans les données de coupe transversale de séries chronologiques . American Journal of Political Science , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J., et Tilling, K. (2010). Stratégies d'imputation multiple dans les études longitudinales . American Journal of Epidemiology , 172 (4): 478–4876.

Alexis
la source
Merci pour votre réponse. Je me demandais simplement si vous pouviez définir les différents types de séries chronologiques (cohorte, transversal, etc.) car je suis relativement nouveau dans ce type d'étude et je n'ai jamais rencontré ces termes auparavant.
Jamesm131
@ Jamesm131 Voir ma réponse modifiée.
Alexis
7

vous pouvez utiliser le paquet imputeTS dans R. Je pense que les données sur lesquelles vous travaillez sont des séries chronologiques univariées. Le paquet imputeTS est spécialisé dans l'imputation (univariée) de séries chronologiques. Il propose plusieurs implémentations d'algorithmes d'imputation différentes. Au-delà des algorithmes d'imputation, le package fournit également des fonctions de traçage et d'impression des statistiques de données manquantes. Eh bien, je vous recommande de regarder dans les modèles d'espace d'état pour les valeurs manquantes . Ce package devrait vous aider dans votre analyse.

GD_N
la source