La réponse dépendra de la conception de votre étude (par exemple, séries chronologiques transversales? Séries chronologiques de cohortes, séries chronologiques de cohortes en série?). Honaker et King ont développé une approche qui est utile pour les séries chronologiques transversales (peut-être utile pour les séries chronologiques de cohortes en série, selon vos hypothèses), y compris le package R Amelia II pour imputer ces données. Pendant ce temps, Spratt & Co. ont décrit une approche différente qui peut être utilisée dans certaines conceptions de séries chronologiques de cohortes, mais qui est rare sur les implémentations logicielles.
Un plan de séries chronologiques transversales (ou plan d'étude par panel) est un plan dans lequel une ou des populations sont échantillonnées à plusieurs reprises (par exemple, chaque année), en utilisant le même protocole d'étude (par exemple, les mêmes variables, les mêmes instruments, etc.). ). Si la stratégie d'échantillonnage est représentative, ces types de données produisent une image annuelle (une mesure par participant ou sujet) des distributions de ces variables pour chaque population de l'étude.
Un plan de série chronologique de cohorte (ou plan d'étude de cohortes répétées, plan d'étude longitudinale, parfois aussi appelé plan d'étude par panel) est un plan dans lequel des unités individuelles d'analyse sont échantillonnées une fois et suivies sur une longue période. Les individus peuvent être échantillonnés de manière représentative dans une ou plusieurs populations. Cependant, un échantillon représentatif de séries chronologiques de cohorte deviendra un représentant de plus en plus pauvre de la population cible (au moins dans les populations humaines) à mesure que le temps passe, en raison du fait que des personnes naissent ou vieillissent dans la population cible, et en meurent ou vieillissent, le long avec l'immigration et l'émigration.
Un plan de série chronologique de cohortes en série (alias cohortes répétées, multi et multiples, ou plan d'étude par panel) est un plan dans lequel une ou des populations sont échantillonnées de manière répétée (par exemple, chaque année), en utilisant le même protocole d'étude ( (par exemple, mêmes variables, instruments, etc.), qui mesure des unités d'analyse individuelles au sein d'une population à deux moments de la période (par exemple, au cours de l'année) afin de créer des mesures du taux de variation. Si la stratégie d'échantillonnage est représentative, ces types de données produisent une image annuelle des taux de variation de ces variables pour chaque population de l'étude.
Références
Honaker, J. et King, G. (2010). Que faire en cas de valeurs manquantes dans les données de coupe transversale de séries chronologiques . American Journal of Political Science , 54 (2): 561–581.
Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J., et Tilling, K. (2010). Stratégies d'imputation multiple dans les études longitudinales . American Journal of Epidemiology , 172 (4): 478–4876.
vous pouvez utiliser le paquet imputeTS dans R. Je pense que les données sur lesquelles vous travaillez sont des séries chronologiques univariées. Le paquet imputeTS est spécialisé dans l'imputation (univariée) de séries chronologiques. Il propose plusieurs implémentations d'algorithmes d'imputation différentes. Au-delà des algorithmes d'imputation, le package fournit également des fonctions de traçage et d'impression des statistiques de données manquantes. Eh bien, je vous recommande de regarder dans les modèles d'espace d'état pour les valeurs manquantes . Ce package devrait vous aider dans votre analyse.
la source