Estimer les coefficients ARMA par inspection ACF et PACF

16

Comment estimez-vous le modèle de prévision approprié pour une série chronologique par inspection visuelle des parcelles ACF et PACF? Lequel (c.-à-d. ACF ou PACF) informe l'AR ou le MA (ou les deux)? Quelle partie des graphiques vous indique la partie saisonnière et non saisonnière d'un ARIMA saisonnier?

Considérez les fonctions ACF et PCF affichées ci-dessous. Ils sont d'un journal série transformé qui a été deux fois, l' une en différence de différence simple et une saison ( données originales , enregistrer les données transformées ). Comment décririez-vous la série? Quel modèle lui convient le mieux?

entrez la description de l'image ici

4apprentissage
la source

Réponses:

12

Ma réponse est vraiment un raccourci de javlacelle mais elle est trop longue pour un simple commentaire mais pas trop courte pour être inutile.

Bien que la réponse de jvlacelle soit techniquement correcte à un certain niveau, elle "simplifie excessivement" car elle prouve certaines "choses" qui ne sont normalement jamais vraies. Il suppose qu'aucune structure déterministe n'est requise, comme une ou plusieurs tendances temporelles OU un ou plusieurs décalages de niveau ou une ou plusieurs impulsions saisonnières ou une ou plusieurs impulsions ponctuelles. En outre, il suppose que les paramètres du modèle identifié sont invariants dans le temps et que le processus d'erreur sous-jacent au modèle provisoirement identifié est également invariant dans le temps. Ignorer tout ce qui précède est souvent (toujours à mon avis!) Une recette pour un désastre ou plus précisément un "modèle mal identifié". Un cas classique de ceci est la transformation logarithmique inutile proposée pour la série des compagnies aériennes et pour la série que l'OP présente dans sa question révisée. Il n'y a pas besoin de transformation logarithmique pour ses données car il n'y a que quelques valeurs "inhabituelles" aux périodes 198,207,218,219 et 256 qui non traitées créent la fausse impression qu'il existe une variance d'erreur plus élevée avec des niveaux plus élevés. Notez que les «valeurs inhabituelles» sont identifiées en tenant compte de toute structure ARIMA nécessaire qui échappe souvent à l'œil humain.Des transformations sont nécessaires lorsque la variance d'erreur n'est pas constante dans le temps PAS lorsque la variance du Y observé n'est pas constante dans le temps . Les procédures primitives commettent toujours l'erreur tactique de sélection prématurée d'une transformation avant l'un des remèdes susmentionnés. Il ne faut pas oublier que la stratégie d'identification du modèle ARIMA simple a été développée au début des années 60 MAIS de nombreux développements / améliorations ont été effectués depuis lors. 219 et 256 qui n'ont pas été traités créent la fausse impression qu'il existe une variance d'erreur plus élevée avec des niveaux plus élevés. Notez que les «valeurs inhabituelles» sont identifiées en tenant compte de toute structure ARIMA nécessaire qui échappe souvent à l'œil humain.Des transformations sont nécessaires lorsque la variance d'erreur n'est pas constante dans le temps PAS lorsque la variance du Y observé n'est pas constante dans le temps . Les procédures primitives commettent toujours l'erreur tactique de sélection prématurée d'une transformation avant l'un des remèdes susmentionnés. Il ne faut pas oublier que la stratégie d'identification du modèle ARIMA simple a été développée au début des années 60 MAIS de nombreux développements / améliorations ont été effectués depuis lors. 219 et 256 qui n'ont pas été traités créent la fausse impression qu'il existe une variance d'erreur plus élevée avec des niveaux plus élevés. Notez que les «valeurs inhabituelles» sont identifiées en tenant compte de toute structure ARIMA nécessaire qui échappe souvent à l'œil humain.Des transformations sont nécessaires lorsque la variance d'erreur n'est pas constante dans le temps PAS lorsque la variance du Y observé n'est pas constante dans le temps . Les procédures primitives commettent toujours l'erreur tactique de sélection prématurée d'une transformation avant l'un des remèdes susmentionnés. Il ne faut pas oublier que la stratégie d'identification du modèle ARIMA simple a été développée au début des années 60 MAIS de nombreux développements / améliorations ont été effectués depuis lors. sont identifiés en tenant compte de toute structure ARIMA nécessaire qui échappe souvent à l'œil humain. Des transformations sont nécessaires lorsque la variance d'erreur n'est pas constante dans le temps PAS lorsque la variance du Y observé n'est pas constante dans le temps. Les procédures primitives commettent toujours l'erreur tactique de sélection prématurée d'une transformation avant l'un des remèdes susmentionnés. Il faut se rappeler que la stratégie simple d'identification du modèle ARIMA a été développée au début des années 60 MAIS de nombreux développements / améliorations se sont poursuivis depuis. sont identifiés en tenant compte de toute structure ARIMA nécessaire qui échappe souvent à l'œil humain. Des transformations sont nécessaires lorsque la variance d'erreur n'est pas constante dans le temps PAS lorsque la variance du Y observé n'est pas constante dans le temps. Les procédures primitives commettent toujours l'erreur tactique de sélection prématurée d'une transformation avant l'un des remèdes susmentionnés. Il faut se rappeler que la stratégie simple d'identification du modèle ARIMA a été développée au début des années 60 MAIS de nombreux développements / améliorations se sont poursuivis depuis. Les procédures primitives commettent toujours l'erreur tactique de sélection prématurée d'une transformation avant l'un des remèdes susmentionnés. Il faut se rappeler que la stratégie simple d'identification du modèle ARIMA a été développée au début des années 60 MAIS de nombreux développements / améliorations se sont poursuivis depuis. Les procédures primitives commettent toujours l'erreur tactique de sélection prématurée d'une transformation avant l'un des remèdes susmentionnés. Il faut se rappeler que la stratégie simple d'identification du modèle ARIMA a été développée au début des années 60 MAIS de nombreux développements / améliorations se sont poursuivis depuis.

Modifié après la publication des données:

Un modèle raisonnable a été identifié en utilisant http://www.autobox.com/cms/ qui est un logiciel qui incorpore certaines de mes idées susmentionnées lorsque je l'ai aidé à le développer. entrez la description de l'image iciLe test de Chow pour la constance des paramètres a suggéré que les données soient segmentées et que les 94 dernières observations soient utilisées car les paramètres du modèle avaient changé au fil du temps. entrez la description de l'image iciCes 94 dernières valeurs ont donné une équation entrez la description de l'image iciavec tous les coefficients significatifs. entrez la description de l'image ici. Le tracé des résidus suggère une dispersion raisonnable, entrez la description de l'image icil'ACF suivant suggérant un caractère aléatoire entrez la description de l'image ici. Le graphique réel et nettoyé est éclairant car il montre les valeurs aberrantes subtiles MAIS significatives. entrez la description de l'image ici. Enfin, un graphique de la réalité, de l'ajustement et des prévisions résume notre travail TOUT SANS PRENDRE DE LOGARITHMESentrez la description de l'image ici. Il est bien connu mais souvent oublié que les transformations de puissance sont comme des drogues ... une utilisation injustifiée peut vous nuire. Remarquez enfin que le modèle a une structure AR (2) MAIS pas une structure AR (1).

IrishStat
la source
pourquoi ne pouvons-nous pas prendre la transformation logarithmique? Veuillez consulter l'ensemble de données AirPassengers dans R, qui présente une saisonnalité multiplicative. La prise du journal le transforme en saisonnalité additive. De plus, si nous ne prenons pas de journaux, l'ensemble de données aura une variance croissante, c'est-à-dire qu'il ne sera pas stationnaire. Comment puis-je gérer un tel ensemble de données sans effectuer de transformation de journal? Pouvez-vous s'il vous plaît expliquer?
user2338823
"Il n'y a pas besoin de transformation logarithmique pour ses données car il n'y a que quelques valeurs" inhabituelles "à des périodes qui ne sont pas traitées créent la fausse impression qu'il existe une variance d'erreur plus élevée avec des niveaux plus élevés". l'hypothèse de stationnarité de la constance de la variance concerne la variance d'erreur et non la variance de la série d'origine. Le logiciel R ne permet pas d'identifier et d'incorporer automatiquement les anomalies. voir discussion autobox.com/cms/index.php/blog sur la série. ET autobox.com/pdfs/vegas_ibf_09a.pdf
IrishStat
Le test de Box-Cox pour une transformée de puissance suppose qu'il n'y a pas de valeurs aberrantes, il peut donc lier faussement / par inadvertance la variance changeante à la valeur attendue, suggérant ainsi à tort la nécessité d'une transformée. Voir l'article docplayer.net/… de Tsay de l'un des étudiants de Box comme introduction à la gestion de la structure déterministe latente non traitée. changement de variance soit par une transformation de puissance ou GLS comme le souligne Tsay.
IrishStat
14

Juste pour clarifier les concepts, en inspectant visuellement l'ACF ou le PACF, vous pouvez choisir (et non estimer) un modèle ARMA provisoire. Une fois qu'un modèle est sélectionné, vous pouvez estimer le modèle en maximisant la fonction de vraisemblance, en minimisant la somme des carrés ou, dans le cas du modèle AR, au moyen de la méthode des moments.

Un modèle ARMA peut être choisi lors de l'inspection de l'ACF et du PACF. Cette approche repose sur les faits suivants: 1) l'ACF d'un processus AR stationnaire d'ordre p passe à zéro à un taux exponentiel, tandis que le PACF devient nul après le décalage p. 2) Pour un processus MA d'ordre q, l'ACF théorique et le PACF présentent le comportement inverse (l'ACF tronque après le décalage q et le PACF passe à zéro relativement rapidement).

Il est généralement clair de détecter l'ordre d'un modèle AR ou MA. Cependant, avec des processus qui incluent à la fois une partie AR et MA, le décalage auquel ils sont tronqués peut être flou car ACF et PACF se désintègrent à zéro.

Une façon de procéder consiste à installer d'abord un modèle AR ou MA (celui qui semble plus clair dans l'ACF et le PACF) de faible ordre. Ensuite, s'il existe une autre structure, elle apparaîtra dans les résidus, de sorte que l'ACF et le PACF des résidus sont vérifiés pour déterminer si des termes AR ou MA supplémentaires sont nécessaires.

Habituellement, vous devrez essayer de diagnostiquer plus d'un modèle. Vous pouvez également les comparer en consultant l'AIC.

L'ACF et le PACF que vous avez publiés en premier ont suggéré un ARMA (2,0,0) (0,0,1), c'est-à-dire un AR régulier (2) et un MA saisonnier (1). La partie saisonnière du modèle est déterminée de la même manière que la partie régulière mais en examinant les décalages de l'ordre saisonnier (par exemple 12, 24, 36, ... dans les données mensuelles). Si vous utilisez R , il est recommandé d'augmenter le nombre par défaut de lattis affichés, acf(x, lag.max = 60).

L'intrigue que vous montrez maintenant révèle une corrélation négative suspecte. Si ce tracé est basé sur le même que le tracé précédent, vous avez peut-être pris trop de différences. Voir aussi ce post .

Vous pouvez obtenir plus de détails, entre autres sources, ici: Chapitre 3 de la série chronologique: théorie et méthodes de Peter J. Brockwell et Richard A. Davis et ici .

javlacalle
la source
Tu as raison. J'ai peut-être pris une différence de trop. J'ai un doute cependant. J'ai fait une simple différence ( i.imgur.com/1MjLzlX.png ) et une différence saisonnière (12) ( i.imgur.com/E64Sd7p.png ) sur les données du journal. Laquelle dois-je regarder, la saisonnière non?
4everlearning
1
@ 4everlearning Bien, après avoir pris en compte les différences saisonnières, l'ACF et le PACF se rapprochent de ce à quoi nous pourrions nous attendre pour un processus stationnaire. Vous pouvez commencer par ajuster un ARIMA (2,0,0) (0,1,1), dans R arima(x, order = c(2,0,0), seasonal = list(order = c(0,1,1))), et afficher l'ACF et le PACF des résidus. Soyez également au courant des autres problèmes soulevés par IrishStat qui devraient vous préoccuper dans l'analyse.
javlacalle
Merci. Comment pourrais-je trouver ces commandes AR et MA? De plus, le critère d'information Akaike donne une valeur négative pour mon modèle. Je comprends que ce n'est pas important même si je ne sais pas vraiment comment le comparer à d'autres modèles, par exemple AIC = -797.74 et AIC = -800.00. Quel est préférable?
4everlearning
Vous pouvez déterminer les commandes en suivant l'idée donnée dans la réponse ci-dessus. Si vous voyez que l'ACF passe à zéro relativement rapidement et que le PACF tronque après le décalage 2, c'est probablement qu'une structure AR (2) est présente dans les données. L'idée inverse s'applique pour détecter une AMM. En tant que recommandation générale, commencez par un modèle d'ordre faible et inspectez les résidus à la recherche de structures AR ou MA à ajouter au modèle initial.
javlacalle
En règle générale, plus l'AIC est bas, meilleur est le modèle (en supposant que vous utilisez les données à la même échelle dans les deux modèles, c'est-à-dire que la série doit être soit en niveaux soit en journaux dans tous les modèles que vous comparez ).
javlacalle