Quand enregistrer la transformation d'une série chronologique avant d'ajuster un modèle ARIMA

26

J'ai déjà utilisé Forecast Pro pour prévoir des séries chronologiques univariées, mais je passe mon flux de travail à R. Le package de prévisions pour R contient beaucoup de fonctions utiles, mais une chose qu'il ne fait pas est une sorte de transformation de données avant d'exécuter auto .arima (). Dans certains cas, Forecast Pro décide de consigner les données de transformation avant de faire des prévisions, mais je n'ai pas encore compris pourquoi.

Ma question est donc la suivante: quand dois-je transformer ma série chronologique avant d'essayer les méthodes ARIMA dessus?

/ edit: après avoir lu vos réponses, je vais utiliser quelque chose comme ça, où x est ma série temporelle:

library(lmtest)
if ((gqtest(x~1)$p.value < 0.10) {
    x<-log(x)
}

Est-ce que ça a du sens?

Zach
la source

Réponses:

21

Quelques mises en garde avant de continuer. Comme je le suggère souvent à mes étudiants, n'utilisez les auto.arima()choses qu'en première approximation de votre résultat final ou si vous voulez avoir un modèle parcimonieux lorsque vous vérifiez que votre modèle basé sur la théorie rivale fait mieux.

Les données

Vous devez clairement partir de la description des données de séries chronologiques avec lesquelles vous travaillez. En macro-économétrie, vous travaillez généralement avec des données agrégées, et les moyennes géométriques (étonnamment) ont plus de preuves empiriques pour les données de macro-séries temporelles, probablement parce que la plupart d'entre elles se décomposent en une tendance à la croissance exponentielle .

Par ailleurs, la suggestion de Rob "visuellement" fonctionne pour les séries chronologiques avec une partie saisonnière claire , car les données annuelles variant lentement sont moins claires pour les augmentations de variation. Heureusement, une tendance à la croissance exponentielle est généralement observée (si elle semble linéaire, alors pas besoin de journaux).

Modèle

Si votre analyse est basée sur une théorie selon laquelle une moyenne géométrique pondérée plus connu sous le nom de modèle de régression multiplicative est celui avec lequel vous devez travailler. Ensuite, vous passez généralement à un modèle de régression log-logOui(t)=X1α1(t)...Xkαk(t)ε(t) , qui est linéaire dans les paramètres et la plupart de vos variables, mais certains taux de croissance, sont transformés.

En économétrie financière, les journaux sont une chose courante en raison de la popularité des retours de journaux, car ...

Les transformations de journaux ont de belles propriétés

Dans le modèle de régression log-log c'est l'interprétation du paramètre estimé, disons comme l' élasticité de Y ( t ) sur X i ( t ) .αjeOui(t)Xje(t)

Dans les modèles à correction d'erreur, nous avons une hypothèse empiriquement plus forte selon laquelle les proportions sont plus stables ( stationnaires ) que les différences absolues.

En économétrie financière, il est facile d'agréger les log-retours dans le temps .

Il existe de nombreuses autres raisons non mentionnées ici.

finalement

Notez que la transformation logarithmique est généralement appliquée aux variables non négatives (niveau). Si vous observez les différences de deux séries temporelles (exportation nette, par exemple), il n'est même pas possible de prendre le journal, vous devez soit rechercher les données originales dans les niveaux, soit prendre la forme d'une tendance commune qui a été soustraite.

[ ajout après modification ] Si vous voulez toujours un critère statistique pour savoir quand effectuer la transformation du journal, une solution simple serait tout test d'hétéroscédasticité. En cas d'augmentation de la variance, je recommanderais le test de Goldfeld-Quandt ou similaire. Dans R, il est situé dans library(lmtest)et est désigné par gqtest(y~1)fonction. Régresser simplement sur le terme d'interception si vous n'avez pas de modèle de régression, yc'est votre variable dépendante.

Dmitrij Celov
la source
Merci pour l'info. Avec le test GQ, plus la valeur p est faible, plus la distribution est hétéroskédastique?
Zach
@Zach: exactement, prenez 5% par exemple, bien sûr si vous ne prévoyez pas d'aller pour l'exploration de données. Je pars personnellement des hypothèses du modèle.
Dmitrij Celov
@Dmitrij. Merci. Je veux juste m'assurer que j'interprète correctement la sortie.
Zach
29

Tracez un graphique des données en fonction du temps. S'il semble que la variation augmente avec le niveau de la série, prenez des journaux. Sinon, modélisez les données d'origine.

Rob Hyndman
la source
3
Voici une question: quel est l'effet si vous prenez des journaux et qu'ils ne sont pas nécessaires? Je l'ai aimé lorsque je travaille avec des séries chronologiques qui nécessitent une transformation logarithmique, car (si je comprends bien) les coefficients sont des ratios et à de petites valeurs presque des pourcentages. (Par exemple, exp (0,05) = 1,051.)
Wayne
4

Par leurs fruits, vous les connaîtrez

L'hypothèse (à tester) est que les erreurs du modèle ont une variance constante. Notez que cela ne signifie pas les erreurs d'un modèle supposé. Lorsque vous utilisez une analyse graphique simple, vous supposez essentiellement un modèle linéaire dans le temps.

Ainsi, si vous avez un modèle inadéquat tel que pourrait le suggérer un tracé informel des données en fonction du temps, vous pouvez incorrectement conclure sur la nécessité d'une transformation de puissance. Box et Jenkins l'ont fait avec leur exemple Airline Data. Ils n'ont pas tenu compte de 3 valeurs inhabituelles dans les données les plus récentes, ils ont donc conclu à tort qu'il y avait une variation plus élevée des résidus au niveau le plus élevé de la série.

Pour plus d'informations sur ce sujet, veuillez consulter http://www.autobox.com/pdfs/vegas_ibf_09a.pdf

IrishStat
la source
1

Vous pourriez vouloir log-transformer des séries lorsqu'elles sont en quelque sorte naturellement géométriques ou lorsque la valeur temporelle d'un investissement implique que vous vous comparerez à une obligation à risque minimal qui a un rendement positif. Cela les rendra plus "linéarisables", et donc adaptés à une relation de récurrence de différenciation simple.

DWin
la source
1
Les transformations sont comme des drogues: certaines sont bonnes pour vous et d'autres non. Si vous n'êtes pas intéressé à tester des hypothèses statistiques, vous pouvez supposer tout ce que vous voulez. Les tests paramétriques d'hypothèse ont des hypothèses sur le prix de l'erreur, ignorez-les à vos risques et périls.
IrishStat
1
Tellement vrai. J'ai dit que le processus devait être géométrique. Le défaut de transformation peut également entraîner des erreurs d'inférence. Je ne vois pas où je proposais d'ignorer les hypothèses concernant les conditions de l'inférence valide.
DWin
1
stats.stackexchange.com/questions/6498/… comprenait une discussion sur quand et pourquoi se transformer. Le «fait» que le dérivé d'origine est «géométrique» ne signifie pas que les résidus d'un modèle adéquat ont un écart-type proportionnel à la moyenne. Cela pourrait MAIS cela doit être prouvé empiriquement ou du moins testé.
IrishStat