Prévision de séries chronologiques non stationnaires

8

Je voudrais prévoir les séries chronologiques non stationnaires, impliquant plusieurs hypothèses a priori cruciales découlant de l'étude des instances de telles séries.

  1. J'ai construit une fonction de distribution de probabilité en un point moyennée dans le temps approximée par une distribution normale.

    p^(x)=12πσ2exp(x22σ2)
    De ce point de vue, je veux les prévisions zt(l) à ne pas dépasser lorsque l. En d'autres termes, la variance dezt(l) doit être délimité.
  2. La fonction de distribution de probabilité moyenne à deux points p^(xi,i;xj,j) a également été construit, ce qui a conduit à l'identification de la fonction d'autocorrélation. ρ(j)Ajα à condition de 0<α<0.5.

Au début, le processus d'identification de Box-Jenkins m'a conduit à ARIMA(0,1,3) modèle, cependant

  1. Je ne peux pas avoir de variance limitée avant d0 (qui découle des équations pour les poids BJ ψj). En même temps, je ne peux pas utiliserd=0puisque l'autocorrélation initiale diminue lentement (ce qui est probablement une preuve de non-stationnarité selon BJ). C'est le principal obstacle pour moi.

  2. Visuellement, simulation de ARIMA(0,1,3)ne coïncide pas avec le comportement de mes échantillons. Et les corrélations de première différence de la série sont en mauvais accord avec les corrélations issues du modèle.

  3. L'analyse des résidus montre des corrélations significatives à partir du décalage 3. C'est pourquoi ma déclaration initiale ARIMA(0,1,3) est incorrect.

Essayer d'adapter différents ARIMA(p,0,0) modèles, je vois qu'il y a des corrélations résiduelles importantes proches du décalage p pour chaque p. Cela peut supposer que j'ai besoinARIMA(,0,q) modèle (comme choix limitatif), par exemple ARIMA fractionnaire.

De [1], j'ai découvert Fractional ARIMA(p,d,q) modèles qui sont ARIMA(,0,q) en effet.

  1. Je n'ai trouvé aucun paquet GNU R avec le support des valeurs manquantes pour cela. Les valeurs manquantes semblent être une sorte de défi.

  2. Les publications sur ARIMA fractionné sont assez rares. Ces modèles fractionnaires sont-ils vraiment utilisés? Peut-être existe-t-il un bon remplacement des modèles ARIMA pour mes besoins? La prévision n'est pas ma principale, je n'ai qu'un intérêt pragmatique.

  3. De la littérature différente (par exemple [2]), j'ai appris qu'il est pratiquement impossible de choisir entre ARIMA fractionnaire et les modèles avec "décalage de niveau". Cependant, je n'ai pas trouvé le package pour GNU R pour s'adapter aux modèles de «changement de niveau».

[1]: Granger, Joyeux.: J. de série chronologique anale. vol. 1 non. 1 1980, p.15

[2]: Grassi, de Magistris.: «Quand la mémoire longue rencontre le filtre de Kalman: une étude comparative», Computational Statistics and Data Analysis, 2012, sous presse.

Mise à jour: pour rendre mes propres progrès et répondre à @IrishStat

Ma déclaration sur la distribution de probabilité à deux points est incorrecte en général. Construite de cette manière, la fonction dépendra de la longueur complète de la série. Il y a donc un peu à en tirer. Au moins, paramètre nomméα dépendra de la longueur complète de la série.

Les listes 2 et 3 ont également été mises à jour.

Mes données sont disponibles sous forme de fichier dat ici .

À l'heure actuelle, je doute entre FARIMA et les changements de niveau, et je ne trouve toujours pas de logiciel approprié pour vérifier ces options. C'est aussi ma première expérience avec l'identification de modèle, donc toute aide sera appréciée.

0x2207
la source
Je suis un peu confus par vos données. Par exemple, quelle est la signification de 6325.76 ... et -.247831. Qu'est-ce qui est observé? Les données sont-elles chronologiques et également espacées dans le temps? 6325,76666666667 -0,247831949032426 « 770 » 6326,78333333333 ,0282060159445925 « 771 » 6327,78333333333 ,162348034962085 « 772 » 6328,78333333333 -0,206057978534193 « 773 » 6329,78333333333 -0,427928912063427 « 774 » 6330,78333333333 NA « 775 » 6331,78333333333 NA « 776 » 6332,78333333333 NA « 777 » 6333,78333333333 NA « 778 » NA 6334,78333333333
IrishStat
Il s'agit du résultat write.table (). La première colonne est "nom de ligne" (sans signification), la seconde est le moment, la troisième valeur. Ce sont des observations presque également espacées, beaucoup de données manquent.
0x2207
Les approches dans le domaine temporel nécessitent des données également espacées SANS valeurs manquantes. À des fins pédagogiques, je vais prendre un sous-ensemble des données ET supposer qu'elles sont également espacées et essayer de les caractériser.
IrishStat

Réponses:

5

Je n'ai jamais vu un modèle comme le processus d'identification de Box-Jenkins m'a conduit au modèle ARIMA (0,1,3) MAIS je n'avais jamais vu de cygne noir avant mon arrivée en Australie. Veuillez publier vos données car cela peut suggérer la nécessité de

  1. Détection d'intervention conduisant à inclure des changements de niveau, des tendances temporelles locales et al
  2. Paramètres variant dans le temps
  3. Variance d'erreur variant dans le temps

Si vos données sont confidentielles, modifiez-les simplement.

OK après avoir reçu vos données (environ 80000 lectures), j'ai sélectionné 805 observations à partir du point 6287 et obtenu.

entrez la description de l'image ici. Un point de changement significatif a été détecté à la période 137 suggérant des paramètres variant dans le temps. Les 668 observations restantes suggèrent un modèle pdq ARIMA (3,0,0) avec un décalage de niveau.étape appuyant vos conclusions préliminaires sur le décalage 3 entrez la description de l'image ici.. Le graphique réel / ajustement / prévision est entrez la description de l'image icile tracé résiduel entrez la description de l'image iciet l'acf des résidus est entrez la description de l'image ici. Étant donné que l'acf des résidus montre une structure solide aux périodes 5 et 10, entrez la description de l'image icivous pourriez approfondir la structure saisonnière au décalage 5. J'espère que cela vous aidera.

IrishStat
la source