Comment intégrer une valeur aberrante innovante à l'observation 48 dans mon modèle ARIMA?

10

Je travaille sur un ensemble de données. Après avoir utilisé certaines techniques d'identification de modèle, je suis sorti avec un modèle ARIMA (0,2,1).

J'ai utilisé la detectIOfonction dans le package TSAen R pour détecter une valeur aberrante innovante (IO) à la 48e observation de mon ensemble de données d'origine.

Comment puis-je intégrer cette valeur aberrante dans mon modèle afin de pouvoir l'utiliser à des fins de prévision? Je ne veux pas utiliser le modèle ARIMAX car je ne pourrais peut-être pas faire de prédictions à partir de cela dans R. Y a-t-il d'autres façons de le faire?

Voici mes valeurs dans l'ordre:

VALUE <- scan()
  4.6  4.5  4.4  4.5  4.4  4.6  4.7  4.6  4.7  4.7  4.7  5.0  5.0  4.9  5.1  5.0  5.4
  5.6  5.8  6.1  6.1  6.5  6.8  7.3  7.8  8.3  8.7  9.0  9.4  9.5  9.5  9.6  9.8 10.0
  9.9  9.9  9.8  9.8  9.9  9.9  9.6  9.4  9.5  9.5  9.5  9.5  9.8  9.3  9.1  9.0  8.9
  9.0  9.0  9.1  9.0  9.0  9.0  8.9  8.6  8.5  8.3  8.3  8.2  8.1  8.2  8.2  8.2  8.1
  7.8  7.9  7.8  7.8

Ce sont en fait mes données. Ce sont des taux de chômage sur une période de 6 ans. Il y a alors 72 observations. Chaque valeur doit contenir au plus une décimale

b2amen
la source
6
t=48
2
@Gen_b Vous avez raison, cela devrait vous déranger car cela est probablement surdifférencié, ce qui entraîne une annulation MA (1). Une erreur d'identification résulte de l'utilisation d'outils inappropriés.
IrishStat
2
Dans les deuxièmes différences, vous avez ce qui ressemble à une valeur aberrante, mais elle est apparemment causée par un petit saut additif à l'observation 47 dans la série originale, qui, une fois différenciée deux fois, ressemble à une grande valeur aberrante négative une période plus tard. Si vous faites quelque chose de simple pour supprimer ce petit effet à l'observation 47 (presque tout ce qui est sensé), aucune valeur aberrante n'apparaît dans la deuxième différence. Je dirais que c'est peut-être mieux considéré comme un AO sur l'échelle d'origine.
Glen_b -Reinstate Monica
2
Il se passe beaucoup de choses dans cet ensemble de données, mais le comportement temporel local (corrélation, saisonnalité, etc.) en est le moindre. Lorsque vous analysez aveuglément des données comme celle-ci comme une simple séquence de chiffres, vous risquez de produire des résultats ridicules (ou pire). Que pouvez - vous nous dire ce que ces données signifient ? S'agit-il peut-être de mesures de quelque chose à une station de surveillance? Une série chronologique économique? Un graphique de croissance biologique? Comprendre quelque chose sur le phénomène sous-jacent fera généralement beaucoup plus pour aider à identifier un modèle que n'importe quelle quantité de tripotage avec un logiciel statistique.
whuber
2
@whuber: ce sont des taux de chômage sur une période de 6 ans!
b2amen

Réponses:

3

Y(t)=[θ/ϕ][A(t)+IO(t)]Y*(t)=[θ/ϕ][A(t)]+[θ/ϕ][IO(t)]

θ=1ϕ=[1-.5B]
Oui*(t)=[1/(1-.5B)][UNE(t)]
+IO(t)-.5IO(t-1)+.25IO(t-2)-.125IO(t-3)-.


Oui(t)=[1/(1-.5B)][UNE(t)] +dixIO(t)-5IO(t-1)+2,5IO(t-2)-1,25IO(t-3)-.
IO

De cette façon, vous pouvez voir que l'impact de l'anomalie est non seulement instantané mais a de la mémoire.

t

[w(b)/(b)][w(b)]

Chaque fois que vous intégrez de la mémoire, que ce soit le résultat d'un opérateur de différenciation ou d'une structure ARMA, il s'agit d'un aveu tacite d'ignorance en raison de séries causales omises. Cela est également vrai de la nécessité d'incorporer des séries déterministes d'intervention telles que les impulsions / changements de niveau, les impulsions saisonnières ou les tendances de l'heure locale. Ces variables factices sont un proxy nécessaire pour les variables causales déterministes omises déterminées par l'utilisateur. Souvent, tout ce que vous avez est la série d'intérêt et, compte tenu des qualificatifs que j'ai énoncés, vous pouvez prévoir l'avenir en fonction du passé, dans l'ignorance totale de la nature exacte des données analysées. Le seul problème est que vous utilisez la lunette arrière pour prédire la route à venir ... une chose dangereuse en effet.

après la publication des données ...

Un modèle raisonnable est un (1,1,0) is entrez la description de l'image iciet les anomalies AO ont été identifiées aux périodes 39,41,47,21 et 69 (pas à la période 48). Les résidus de ce modèle semblent être exempts de structure évidente. entrez la description de l'image iciET entrez la description de l'image iciLe fice AO évalue une représentation optimale de l'activité reflétée par l'activité qui n'est pas dans l'histoire de la série chronologique. Je pense que l'ACF du modèle surdifférencié du PO refléterait l'inadéquation du modèle. Voici le modèle. entrez la description de l'image ici Là encore, aucun code R n'est fourni car le problème ou l'opportunité se situe dans le domaine de l'identification / révision / validation du modèle. Enfin un tracé de la série réelle / ajustée et prévue.! [Entrez la description de l'image ici] [6]

IrishStat
la source
1
Merci pour votre réponse; mais je voulais en fait un R-Code pour mon modèle.
b2amen
1
@ b2amen Oui, je ne comprends pas MAIS Glen_b voulait des "trucs" et je pensais que je lui répondrais.
IrishStat
Merci pour la retouche. Vous et moi ferions de bons partenaires!
IrishStat
@ IrishStat: mes données sont incluses dans la question d'origine. J'espère que cela pourrait vous aider à m'aider. Merci
quand même
@IrishStat: J'aime votre sortie. Cela me semble assez soigné. Et quel logiciel avez-vous utilisé? Mais pourriez-vous expliquer comment vous avez identifié un AR (2,1,0)? Merci
b2amen