J'ai une question / confusion sur les séries stationnaires requises pour la modélisation avec ARIMA (X). Je pense plus à cela en termes d'inférence (effet d'une intervention), mais j'aimerais savoir si la prévision par rapport à l'inférence fait une différence dans la réponse.
Question:
Toutes les ressources introductives que j'ai lues indiquent que la série doit être stationnaire, ce qui est logique pour moi et c'est là qu'intervient le "je" dans arima (différenciation).
Ce qui me confond, c'est l'utilisation des tendances et des dérives dans ARIMA (X) et les implications (le cas échéant) pour les exigences stationnaires.
L'utilisation d'un terme constant / dérive et / ou d'une variable de tendance comme variable exogène (c'est-à-dire en ajoutant «t» comme régresseur) annule-t-elle l'exigence que la série soit stationnaire? La réponse est-elle différente selon que la série a une racine unitaire (par exemple le test adf) ou a une tendance déterministe mais pas de racine unitaire?
OU
Une série doit-elle toujours être stationnaire, réalisée par différenciation et / ou détendante avant d'utiliser ARIMA (X)?
la source
N'oubliez pas qu'il existe différents types de non-stationnarité et différentes manières de les gérer. Quatre courants sont:
1) Tendances déterministes ou stationnarité des tendances. Si votre série est de ce type, la décroissance ou l'inclusion d'une tendance temporelle dans la régression / le modèle. Vous voudrez peut-être vérifier le théorème de Frisch – Waugh – Lovell sur celui-ci.
2) Décalages de niveau et ruptures structurelles. Si tel est le cas, vous devez inclure une variable fictive pour chaque pause ou si votre échantillon est suffisamment long, modélisez chaque regimé séparément.
3) Modification de la variance. Modélisez les échantillons séparément ou modélisez la variance changeante à l'aide de la classe de modélisation ARCH ou GARCH.
4) Si votre série contient une racine unitaire. En général, vous devez ensuite vérifier les relations de cointégration entre les variables, mais comme vous êtes préoccupé par la prévision univariée, vous devez la différencier une ou deux fois en fonction de l'ordre d'intégration.
Afin de modéliser une série chronologique à l'aide de la classe de modélisation ARIMA, les étapes suivantes doivent être appropriées:
1) Regardez l'ACF et le PACF avec un graphique de série chronologique pour voir si la série est stationnaire ou non stationnaire.
2) Testez la série pour une racine unitaire. Cela peut être fait avec une large gamme de tests, dont les plus courants sont le test ADF, le test Phillips-Perron (PP), le test KPSS qui a le nul de stationnarité ou le test DF-GLS qui est le plus efficace. des tests susmentionnés. REMARQUE! Que dans le cas où votre série contient une rupture structurelle, ces tests sont biaisés pour ne pas rejeter le zéro d'une racine unitaire. Dans le cas où vous souhaitez tester la robustesse de ces tests et si vous suspectez une ou plusieurs ruptures structurelles, vous devez utiliser des tests de rupture structurelle endogènes. Deux tests courants sont le test de Zivot-Andrews qui permet une rupture structurale endogène et le Clemente-Montañés-Reyes qui permet deux ruptures structurelles. Ce dernier permet deux modèles différents.
3) S'il y a une racine unitaire dans la série, vous devez la différencier. Ensuite, vous devriez lancer une recherche sur l'ACF, le PACF et le tracé de la série chronologique et probablement rechercher une deuxième racine unitaire pour être du bon côté. L'ACF et le PACF vous aideront à décider du nombre de termes AR et MA à inclure.
4) Si la série ne contient pas de racine unitaire mais que le tracé de la série chronologique et l'ACF montrent que la série a une tendance déterministe, vous devez ajouter une tendance lors de l'ajustement du modèle. Certaines personnes soutiennent qu'il est tout à fait valable de simplement différencier la série lorsqu'elle contient une tendance déterministe bien que des informations puissent être perdues au cours du processus. Néanmoins, c'est une bonne idée de le différencier afin de voir de nombreux termes AR et / ou MA que vous devrez inclure. Mais une tendance temporelle est valable.
5) Ajustez les différents modèles et effectuez la vérification diagnostique habituelle, vous pouvez utiliser un critère d'information ou le MSE afin de sélectionner le meilleur modèle en fonction de l'échantillon sur lequel vous l'adaptez.
6) Faites des prévisions d'échantillon sur les modèles les mieux ajustés et calculez les fonctions de perte telles que MSE, MAPE, MAD pour voir lesquelles d'entre elles fonctionnent le mieux lorsque vous les utilisez pour prévoir parce que c'est ce que nous voulons faire!
7) Faites vos prévisions hors échantillon comme un patron et soyez satisfait de vos résultats!
la source
Déterminer si la tendance (ou une autre composante telle que la saisonnalité) est déterministe ou stochastique fait partie du casse-tête de l'analyse des séries chronologiques. J'ajouterai quelques points à ce qui a été dit.
1) La distinction entre les tendances déterministes et stochastiques est importante car si une racine unitaire est présente dans les données (par exemple une marche aléatoire), les statistiques de test utilisées pour l'inférence ne suivent pas la distribution traditionnelle. Voir cet article pour quelques détails et références.
Nous pouvons simuler une marche aléatoire (tendance stochastique où les premières différences doivent être prises), tester la signification de la tendance déterministe et voir le pourcentage de cas dans lesquels le zéro de la tendance déterministe est rejeté. En R, on peut faire:
Au niveau de signification de 5%, nous nous attendrions à rejeter le nul dans 95% des cas, cependant, dans cette expérience, il n'a été rejeté que dans environ 89% des cas sur 10 000 marches aléatoires simulées.
Nous pouvons appliquer des tests de racine unitaire pour tester si une racine unitaire est présente. Mais nous devons être conscients qu'une tendance linéaire peut à son tour conduire à l'échec du rejet du zéro d'une racine unitaire. Pour y faire face, le test KPSS considère le nul de stationnarité autour d'une tendance linéaire.
2) Un autre problème est l'interprétation des composantes déterministes d'un processus en niveaux ou premières différences. L'effet d'une interception n'est pas le même dans un modèle à tendance linéaire que dans une marche aléatoire. Voir cet article pour l'illustration.
Nous arrivons à:
Si la représentation graphique d'une série montre une tendance linéaire relativement claire, nous ne pouvons pas être sûrs qu'elle soit due à la présence d'une tendance linéaire déterministe ou à une dérive dans un processus de marche aléatoire. Des graphiques et des statistiques de tests complémentaires doivent être appliqués.
Il y a quelques mises en garde à garder à l'esprit car une analyse basée sur la racine unitaire et d'autres statistiques de test n'est pas infaillible. Certains de ces tests peuvent être affectés par la présence d'observations périphériques ou de changements de niveau et nécessitent la sélection d'un ordre de décalage qui n'est pas toujours simple.
Pour contourner ce casse-tête, je pense que la pratique courante consiste à prendre les différences de données jusqu'à ce que la série semble stationnaire (par exemple en regardant la fonction d'autocorrélation, qui devrait aller à zéro rapidement), puis à choisir un modèle ARMA.
la source
Question très intéressante, j'aimerais aussi savoir ce que les autres ont à dire. Je suis ingénieur de formation et non statisticien, donc quelqu'un peut vérifier ma logique. En tant qu'ingénieurs, nous aimerions simuler et expérimenter, donc j'étais motivé pour simuler et tester votre question.
Comme montré empiriquement ci-dessous, l'utilisation d'une variable de tendance dans ARIMAX a annulé le besoin de différenciation et rend la tendance de la série stationnaire. Voici la logique que j'ai utilisée pour vérifier.
Voici le code R et les graphiques:
AR (1) Tracé simulé
AR (1) avec tendance déterministe
ARIMAX Residual PACF avec tendance exogène. Les résidus sont aléatoires, sans motif
Comme on peut le voir ci-dessus, la modélisation de la tendance déterministe en tant que variable exogène dans le modèle ARIMAX annule le besoin de différenciation. Au moins dans le cas déterministe, cela a fonctionné. Je me demande comment cela se comporterait avec une tendance stochastique qui est très difficile à prévoir ou à modéliser.
Pour répondre à votre deuxième question, OUI tous les ARIMA, y compris ARIMAX, doivent être rendus immobiles. C'est du moins ce que disent les manuels.
En outre, comme indiqué, consultez cet article . Explication très claire sur la tendance déterministe par rapport à la tendance stochastique et comment les supprimer pour la rendre stationnaire et également une très bonne étude de la littérature sur ce sujet. Ils l'utilisent dans le contexte du réseau neuronal, mais il est utile pour un problème général de série temporelle. Leur dernière recommandation est quand il est clairement identifié comme une tendance déterministe, la tendance linéaire est dérivée, sinon appliquer la différenciation pour rendre les séries chronologiques stationnaires. Le jury est toujours là, mais la plupart des chercheurs cités dans cet article recommandent la différenciation par opposition à la tendance linéaire.
Éditer:
Ci-dessous se trouve une marche aléatoire avec un processus stochastique de dérive, utilisant une variable exogène et une différence d'arima. Les deux semblent donner la même réponse et, en substance, ils sont identiques.
J'espère que cela t'aides!
la source