Dans le domaine de l’économie (je pense), nous avons ARIMA et GARCH pour les séries chronologiques régulièrement espacées et Poisson, Hawkes pour la modélisation des processus ponctuels; qu’en est-il des tentatives de modélisation de séries chronologiques irrégulièrement espacées - existe-t-il (au moins) des pratiques communes? ?
(Si vous avez des connaissances dans ce sujet, vous pouvez également développer l' article du wiki correspondant .)
Edition (sur les valeurs manquantes et les séries temporelles irrégulières):
Répondez au commentaire de @Lucas Reis. Si les espaces entre les mesures ou les variables de réalisation sont espacés en raison (par exemple) d’un processus de Poisson, il n’ya pas beaucoup de place pour ce type de régularisation, mais il existe une procédure simple: t(i)
le ième indice de temps de la variable x (le ième temps de réalisation x), définissons ensuite les espaces entre les temps de mesure sous forme de g(i)=t(i)-t(i-1)
, puis nous discrétisons en g(i)
utilisant constante c
, dg(i)=floor(g(i)/c
et créons une nouvelle série temporelle avec le nombre de valeurs vierges entre les anciennes observations de la série temporelle originale i
et i+1
égale à dg (i), mais le problème est que cela procédure peut facilement produire des séries chronologiques avec un nombre de données manquantes beaucoup plus grand que le nombre d'observations, de sorte que l'estimation raisonnable des valeurs des observations manquantes pourrait être impossible et trop grandec
supprimer "structure temporelle / dépendance temporelle, etc." problème analysé (le cas extrême est donné en prenant c>=max(floor(g(i)/c))
qui efface simplement des séries temporelles irrégulièrement espacées en
Edition2 (juste pour le plaisir): Image tenant compte des valeurs manquantes dans des séries temporelles irrégulièrement espacées ou même dans le cas d'un processus ponctuel.
t(i)
- le temps,x[t(i)],x[t(i+1)],x[t(i+2)]...
ett(j+1)-t(j)
n'est pas constant. Les données sont collectées de manière distribuée ou asynchrone.Réponses:
Si les observations d'un processus stochastique sont espacées de manière irrégulière, la manière la plus naturelle de modéliser les observations consiste à effectuer des observations à temps discret à partir d'un processus à temps continu.
Ce qu’il faut généralement d’une spécification de modèle, c’est la distribution conjointe des observations observées à des instants , et elle peut, par exemple, être décomposée en distributions conditionnelles de étant donné . Si le processus est un processus de Markov, cette distribution conditionnelle dépend de non de et dépend de et de . Si le processus est homogène dans le temps, la dépendance des points de temps ne dépend que de leur différence .X1,…,Xn t1<t2<…<tn Xi Xi−1,…,X1 Xi−1 − Xi−2,…,X1 − ti ti−1 ti−ti−1
Nous voyons dans ceci que si nous avons des observations équidistantes (avec , par exemple) d'un processus de Markov homogène dans le temps, nous n'avons besoin que de spécifier une seule distribution de probabilité conditionnelle, , pour spécifier une modèle. Sinon, nous devons spécifier une collection complète de distributions de probabilité conditionnelles indexées par les différences temporelles des observations pour spécifier un modèle. En fait, cette dernière solution est plus facile à réaliser en spécifiant une famille de distributions de probabilité conditionnelles à temps continu.ti−ti−1=1 P1 Pti−ti−1 Pt
Une méthode courante pour obtenir une spécification de modèle à temps continu consiste à une équation différentielle stochastique (SDE) La simulation et l'inférence pour les équations différentielles stochastiques de Stefano Iacus est un bon point de départ pour la création de statistiques pour les modèles SDE . Il se peut que de nombreuses méthodes et résultats soient décrits pour des observations équidistantes, mais cela n’est généralement pratique que pour la présentation et n’est pas essentiel pour l’application. L'un des principaux obstacles est que la spécification SDE permet rarement une probabilité explicite lorsque vous avez des observations discrètes, mais il existe des alternatives d'équations d'estimation bien développées.
Si vous voulez aller au-delà des processus de Markov, les modèles de volatilité stochastique sont comme les modèles (G) ARCH qui tentent de modéliser une variance hétérogène (volatilité). On peut également envisager des équations de retard telles que qui sont des analogues de temps continu de processus AR . ( p )
Je pense qu’il est juste de dire que la pratique courante lorsqu’il s’agit d’observations à des moments irréguliers est de construire un modèle stochastique temporel continu.
la source
Pour les séries temporelles irrégulièrement espacées, il est facile de construire un filtre de Kalman .
Il existe un document expliquant comment transférer ARIMA sous la forme d'un espace d'état ici
Et un article qui compare Kalman à GARCH ici(1)
Capacité de prévision de la méthode de filtrage GARCH vs Kalman: preuve tirée de la version bêta quotidienne variant au Royaume-Uni.
Journal of Forecasting , 27, (8), 670-689. (doi: 10.1002 / for.1096).
la source
Lorsque je cherchais un moyen de mesurer l'ampleur de la fluctuation des données échantillonnées irrégulièrement, je suis tombé sur ces deux articles sur le lissage exponentiel des données irrégulières de Cipra [ 1 , 2 ]. Celles-ci s'appuient davantage sur les techniques de lissage de Brown, Winters et Holt (voir l'entrée Wikipedia pour le lissage exponentiel ) et sur une autre méthode de Wright (voir l'article pour les références). Ces méthodes ne supposent pas grand chose au sujet du processus sous-jacent et fonctionnent également pour des données montrant les fluctuations saisonnières.
Je ne sais pas si cela compte comme un «gold standard». Pour mon propre compte, j'ai décidé d'utiliser un lissage exponentiel à deux voies (unique) selon la méthode de Brown. J'ai eu l'idée de lisser la lecture du résumé dans un papier étudiant (que je ne trouve pas maintenant).
la source
L'analyse de séries temporelles échantillonnées de manière irrégulière peut être délicate, car il n'y a pas beaucoup d'outils disponibles. Parfois, la pratique consiste à appliquer des algorithmes réguliers et à espérer le meilleur. Ce n'est pas nécessairement la meilleure approche. D'autres fois, les gens essaient d'interpoler les données dans les espaces vides. J'ai même vu des cas où des trous sont remplis avec des nombres aléatoires ayant la même distribution que les données connues. Un algorithme spécifique aux séries échantillonnées irrégulièrement est le périodogramme Lomb-Scargle, qui donne un périodogramme (spectre de puissance) pour des séries temporelles échantillonnées de manière inégale. Lomb-Scargle ne nécessite aucun "traitement de gap".
la source
Si vous voulez un modèle de domaine temporel "local" - par opposition à l'estimation de fonctions de corrélation ou de spectres de puissance), par exemple, afin de détecter et de caractériser les impulsions transitoires, les sauts, etc., alors l'algorithme Bayesian Block peut être utile. Il fournit une représentation optimale constante par morceaux de séries temporelles dans n'importe quel mode de données et avec un échantillonnage arbitraire (inégalement). Voir
"Etudes sur l'analyse des séries temporelles astronomiques. VI. Représentations en blocs bayésiens", Scargle, Jeffrey D .; Norris, Jay P .; Jackson, Brad; Chiang, James, Astrophysical Journal, volumes 764, 167, 26 p. (2013). http://arxiv.org/abs/1207.5578
la source
RJ Martin, "Signaux échantillonnés irrégulièrement: théories et techniques d'analyse", thèse de doctorat, UCL, 1998, disponible en ligne. Le chapitre 4 traite des modèles autorégressifs et développe le sujet dans une perspective de temps continu, comme d'autres posts l'ont dit.
la source
La section 4.10 de J.Durbin, SJKoopman, Analyse des séries temporelles par méthodes spatiales d'État , 2e édition, 2012, est consacrée à la modélisation dans le cas d'observations manquantes.
la source
Dans l'analyse des données spatiales, la plupart du temps, les données sont échantillonnées de manière irrégulière dans l'espace. Une idée serait donc de voir ce qui se fait là-bas et de mettre en œuvre l'estimation par variogramme, le krigeage, etc. pour un domaine "temps" unidimensionnel. Les variogrammes peuvent être intéressants même pour des données chronologiques régulièrement espacées, car ils possèdent des propriétés différentes de la fonction d'autocorrélation et sont définis et significatifs même pour des données non stationnaires.
Voici un article (en espagnol) et ici un autre.
la source