Existe-t-il un standard de référence pour la modélisation de séries temporelles irrégulièrement espacées?

45

Dans le domaine de l’économie (je pense), nous avons ARIMA et GARCH pour les séries chronologiques régulièrement espacées et Poisson, Hawkes pour la modélisation des processus ponctuels; qu’en est-il des tentatives de modélisation de séries chronologiques irrégulièrement espacées - existe-t-il (au moins) des pratiques communes? ?

(Si vous avez des connaissances dans ce sujet, vous pouvez également développer l' article du wiki correspondant .)

Edition (sur les valeurs manquantes et les séries temporelles irrégulières):

Répondez au commentaire de @Lucas Reis. Si les espaces entre les mesures ou les variables de réalisation sont espacés en raison (par exemple) d’un processus de Poisson, il n’ya pas beaucoup de place pour ce type de régularisation, mais il existe une procédure simple: t(i)le ième indice de temps de la variable x (le ième temps de réalisation x), définissons ensuite les espaces entre les temps de mesure sous forme de g(i)=t(i)-t(i-1), puis nous discrétisons en g(i)utilisant constante c, dg(i)=floor(g(i)/cet créons une nouvelle série temporelle avec le nombre de valeurs vierges entre les anciennes observations de la série temporelle originale iet i+1égale à dg (i), mais le problème est que cela procédure peut facilement produire des séries chronologiques avec un nombre de données manquantes beaucoup plus grand que le nombre d'observations, de sorte que l'estimation raisonnable des valeurs des observations manquantes pourrait être impossible et trop grandecsupprimer "structure temporelle / dépendance temporelle, etc." problème analysé (le cas extrême est donné en prenant c>=max(floor(g(i)/c))qui efface simplement des séries temporelles irrégulièrement espacées en

Edition2 (juste pour le plaisir): Image tenant compte des valeurs manquantes dans des séries temporelles irrégulièrement espacées ou même dans le cas d'un processus ponctuel.

Qbik
la source
Juste pour clarifier, quand vous dites "irrégulièrement espacés", vous ne voulez pas dire "régulièrement espacés mais avec des valeurs manquantes", n'est-ce pas?
Wayne
2
Non :) t(i)- le temps, x[t(i)],x[t(i+1)],x[t(i+2)]...et t(j+1)-t(j)n'est pas constant. Les données sont collectées de manière distribuée ou asynchrone.
Qbik
2
Qu'en est-il de l'interpolation et de l'analyse avec les valeurs interpolées, régulièrement espacées? Quelqu'un sait quelles seraient les implications de cette méthode?
Lucas Reis
Qu'en est-il de la modélisation initiale des temps des points, puis des valeurs des points, en fonction de leur temps? Je crois que ce sont des «processus ponctuels marqués».
PeterR

Réponses:

26

Si les observations d'un processus stochastique sont espacées de manière irrégulière, la manière la plus naturelle de modéliser les observations consiste à effectuer des observations à temps discret à partir d'un processus à temps continu.

Ce qu’il faut généralement d’une spécification de modèle, c’est la distribution conjointe des observations observées à des instants , et elle peut, par exemple, être décomposée en distributions conditionnelles de étant donné . Si le processus est un processus de Markov, cette distribution conditionnelle dépend de non de et dépend de et de . Si le processus est homogène dans le temps, la dépendance des points de temps ne dépend que de leur différence .X1,,Xnt1<t2<<tnXiXi1,,X1Xi1 Xi2,,X1 titi1titi1

Nous voyons dans ceci que si nous avons des observations équidistantes (avec , par exemple) d'un processus de Markov homogène dans le temps, nous n'avons besoin que de spécifier une seule distribution de probabilité conditionnelle, , pour spécifier une modèle. Sinon, nous devons spécifier une collection complète de distributions de probabilité conditionnelles indexées par les différences temporelles des observations pour spécifier un modèle. En fait, cette dernière solution est plus facile à réaliser en spécifiant une famille de distributions de probabilité conditionnelles à temps continu.titi1=1P1Ptiti1Pt

Une méthode courante pour obtenir une spécification de modèle à temps continu consiste à une équation différentielle stochastique (SDE) La simulation et l'inférence pour les équations différentielles stochastiques de Stefano Iacus est un bon point de départ pour la création de statistiques pour les modèles SDE . Il se peut que de nombreuses méthodes et résultats soient décrits pour des observations équidistantes, mais cela n’est généralement pratique que pour la présentation et n’est pas essentiel pour l’application. L'un des principaux obstacles est que la spécification SDE permet rarement une probabilité explicite lorsque vous avez des observations discrètes, mais il existe des alternatives d'équations d'estimation bien développées.

dXt=a(Xt)dt+b(Xt)dBt.

Si vous voulez aller au-delà des processus de Markov, les modèles de volatilité stochastique sont comme les modèles (G) ARCH qui tentent de modéliser une variance hétérogène (volatilité). On peut également envisager des équations de retard telles que qui sont des analogues de temps continu de processus AR . ( p )

dXt=0ta(s)(XtXs)ds+σdBt
(p)

Je pense qu’il est juste de dire que la pratique courante lorsqu’il s’agit d’observations à des moments irréguliers est de construire un modèle stochastique temporel continu.

NRH
la source
1
GARCH n'est pas un processus de volatilité stochastique. Le volume en GARCH est complètement déterminé pour cette période par les observations des périodes précédentes.
Aksakal le
12

Pour les séries temporelles irrégulièrement espacées, il est facile de construire un filtre de Kalman .

Il existe un document expliquant comment transférer ARIMA sous la forme d'un espace d'état ici

Et un article qui compare Kalman à GARCH ici(1)

(1) Choudhry, Taufiq et Wu, Hao (2008)
Capacité de prévision de la méthode de filtrage GARCH vs Kalman: preuve tirée de la version bêta quotidienne variant au Royaume-Uni.
Journal of Forecasting , 27, (8), 670-689. (doi: 10.1002 / for.1096).

bdecaf
la source
Désolé, je n'ai pas accès à ce dernier article. Pourriez-vous m'aider?
Quartz
2
J'ai ajouté la citation pour qu'il soit facile à trouver - il y a aussi une pré-impression ici: eprints.soton.ac.uk/147383
bdecaf
Le document sur le transfert d'ARIMA dans l'espace d'état semble avoir un lien rompu.
ofey73
9

Lorsque je cherchais un moyen de mesurer l'ampleur de la fluctuation des données échantillonnées irrégulièrement, je suis tombé sur ces deux articles sur le lissage exponentiel des données irrégulières de Cipra [ 1 , 2 ]. Celles-ci s'appuient davantage sur les techniques de lissage de Brown, Winters et Holt (voir l'entrée Wikipedia pour le lissage exponentiel ) et sur une autre méthode de Wright (voir l'article pour les références). Ces méthodes ne supposent pas grand chose au sujet du processus sous-jacent et fonctionnent également pour des données montrant les fluctuations saisonnières.

Je ne sais pas si cela compte comme un «gold standard». Pour mon propre compte, j'ai décidé d'utiliser un lissage exponentiel à deux voies (unique) selon la méthode de Brown. J'ai eu l'idée de lisser la lecture du résumé dans un papier étudiant (que je ne trouve pas maintenant).

Ivana
la source
7

L'analyse de séries temporelles échantillonnées de manière irrégulière peut être délicate, car il n'y a pas beaucoup d'outils disponibles. Parfois, la pratique consiste à appliquer des algorithmes réguliers et à espérer le meilleur. Ce n'est pas nécessairement la meilleure approche. D'autres fois, les gens essaient d'interpoler les données dans les espaces vides. J'ai même vu des cas où des trous sont remplis avec des nombres aléatoires ayant la même distribution que les données connues. Un algorithme spécifique aux séries échantillonnées irrégulièrement est le périodogramme Lomb-Scargle, qui donne un périodogramme (spectre de puissance) pour des séries temporelles échantillonnées de manière inégale. Lomb-Scargle ne nécessite aucun "traitement de gap".

cwkulp
la source
3

Si vous voulez un modèle de domaine temporel "local" - par opposition à l'estimation de fonctions de corrélation ou de spectres de puissance), par exemple, afin de détecter et de caractériser les impulsions transitoires, les sauts, etc., alors l'algorithme Bayesian Block peut être utile. Il fournit une représentation optimale constante par morceaux de séries temporelles dans n'importe quel mode de données et avec un échantillonnage arbitraire (inégalement). Voir

"Etudes sur l'analyse des séries temporelles astronomiques. VI. Représentations en blocs bayésiens", Scargle, Jeffrey D .; Norris, Jay P .; Jackson, Brad; Chiang, James, Astrophysical Journal, volumes 764, 167, 26 p. (2013). http://arxiv.org/abs/1207.5578

Jeff Scargle
la source
2

RJ Martin, "Signaux échantillonnés irrégulièrement: théories et techniques d'analyse", thèse de doctorat, UCL, 1998, disponible en ligne. Le chapitre 4 traite des modèles autorégressifs et développe le sujet dans une perspective de temps continu, comme d'autres posts l'ont dit.

Richard Martin
la source
1

La section 4.10 de J.Durbin, SJKoopman, Analyse des séries temporelles par méthodes spatiales d'État , 2e édition, 2012, est consacrée à la modélisation dans le cas d'observations manquantes.

Jan Galkowski
la source
1

Dans l'analyse des données spatiales, la plupart du temps, les données sont échantillonnées de manière irrégulière dans l'espace. Une idée serait donc de voir ce qui se fait là-bas et de mettre en œuvre l'estimation par variogramme, le krigeage, etc. pour un domaine "temps" unidimensionnel. Les variogrammes peuvent être intéressants même pour des données chronologiques régulièrement espacées, car ils possèdent des propriétés différentes de la fonction d'autocorrélation et sont définis et significatifs même pour des données non stationnaires.

Voici un article (en espagnol) et ici un autre.

kjetil b halvorsen
la source