Recherche d'un certain type d'explication ARIMA

25

Cela peut être difficile à trouver, mais j'aimerais lire un exemple ARIMA bien expliqué qui

  • utilise un minimum de mathématiques

  • étend la discussion au-delà de la construction d'un modèle en utilisant ce modèle pour prévoir des cas spécifiques

  • utilise des graphiques ainsi que des résultats numériques pour caractériser l'adéquation entre les valeurs prévues et réelles.

rolando2
la source

Réponses:

7

Ma lecture suggérée pour une introduction à la modélisation ARIMA serait

Analyse de séries chronologiques appliquées pour les sciences sociales 1980 par R McCleary; RA Hay; EE Meidinger; D McDowall

Ceci est destiné aux spécialistes des sciences sociales afin que les exigences mathématiques ne soient pas trop rigoureuses. Aussi pour des traitements plus courts, je suggérerais deux livres verts Sage (bien qu'ils soient entièrement redondants avec le livre McCleary),

Le texte Ostrom est uniquement une modélisation ARMA et ne traite pas des prévisions. Je ne pense pas non plus qu'ils satisferaient à votre exigence de représenter graphiquement l'erreur de prévision. Je suis sûr que vous pouvez également trouver des ressources plus utiles en examinant les questions marquées avec des séries chronologiques sur ce forum.

Andy W
la source
Le livre McCleary est merveilleusement écrit, laconique et une très bonne introduction. Il y a aussi un merveilleux humour involontaire dans le dernier chapitre où ils parlent de langages de haut niveau comme Fortran.
richiemorrisroe
31

Je vais essayer de répondre à la douce pression de whuber de simplement «répondre à la question» et de rester sur le sujet. On nous donne 144 lectures mensuelles d'une série appelée «The Airline Series». Box et Jenkins ont été largement critiqués pour avoir fourni une prévision qui était extrêmement élevée en raison de la «nature explosive» d'une transformation inversée.entrez la description de l'image ici

Visuellement on a l'impression que la variance de la série originale augmente avec le niveau de la série suggérant un besoin de transformation. Cependant, nous savons que l'une des exigences d'un modèle utile est que la variance des «erreurs de modèle» doit être homogène. Aucune hypothèse n'est nécessaire sur la variance de la série d'origine. Ils sont identiques si le modèle est simplement une constante c'est-à-dire y (t) = u. Comme /stats//users/2392/probabilityislogic l'a dit si clairement dans sa réponse aux conseils sur l'explication de l'hétérogénéité / hétéroscédastictie "une chose que je trouve toujours amusante est cette" non-normalité des données "qui inquiète les gens à propos. Les données n'ont pas besoin d'être distribuées normalement, mais le terme d'erreur le fait »

Les premiers travaux dans les séries chronologiques ont souvent tiré à tort des conclusions sur les transformations injustifiées. Nous découvrirons ici que la transformation corrective de ces données consiste simplement à ajouter trois séries factices indicatrices au modèle ARIMA reflétant un ajustement pour trois points de données inhabituels. Voici le tracé de la fonction d'autocorrélation suggérant une forte autocorrélation au décalage 12 (0,76) et au décalage 1 (0,948). Les autocorrélations sont simplement des coefficients de régression dans un modèle où y est la variable dépendante prédite par un décalage de y.

entrez la description de l'image ici! entrez la description de l'image ici

L'analyse ci-dessus suggère que l'on modélise les premières différences de la série et étudie cette «série résiduelle» qui est identique aux premières différences d'abord pour ses propriétés. entrez la description de l'image ici

Cette analyse reconfirme l'idée qu'il existe un fort modèle saisonnier dans les données qui pourrait être corrigé ou modélisé par un modèle qui contenait deux opérateurs de différenciation.

entrez la description de l'image ici entrez la description de l'image ici

Cette double différenciation simple produit un ensemble de résidus, c'est-à-dire une série ajustée ou, en gros, une série transformée qui met en évidence une variance non constante, mais la raison de la variance non constante est la moyenne non constante des résidus. séries doublement différenciées, suggérant trois anomalies à la fin de la série. L'autocorrélation de cette série indique à tort que «tout va bien» et qu'il pourrait être nécessaire de procéder à tout ajustement Ma (1). Des précautions doivent être prises car il y a une suggestion d'anomalies dans les données donc l'acf est biaisé vers le bas. C'est ce que l'on appelle «l'effet Alice au pays des merveilles», c'est-à-dire l'acceptation de l'hypothèse nulle de l'absence de structure évidente lorsque cette structure est masquée par une violation de l'une des hypothèses.

entrez la description de l'image ici entrez la description de l'image ici

Nous détectons visuellement trois points inhabituels (117,135,136)

entrez la description de l'image ici

Cette étape de détection des valeurs aberrantes est appelée détection d'intervention et peut être facilement, ou pas si facilement, programmée en suivant le travail de Tsay.

entrez la description de l'image icientrez la description de l'image ici

Si nous ajoutons trois indicateurs au modèle, nous obtenons entrez la description de l'image ici

On peut alors estimer

entrez la description de l'image ici

Et recevez un tracé des résidus et de l'acf

entrez la description de l'image ici

entrez la description de l'image ici

Cet acf suggère que nous ajoutons potentiellement deux coefficients de moyenne mobile au modèle. Ainsi, le prochain modèle estimé pourrait être.

entrez la description de l'image ici

Céder

entrez la description de l'image ici

entrez la description de l'image ici

entrez la description de l'image ici entrez la description de l'image ici entrez la description de l'image ici On pourrait alors supprimer la constante non significative et obtenir un modèle affiné: entrez la description de l'image ici

On note qu'aucune transformation de puissance n'a été nécessaire pour obtenir un ensemble de résidus à variance constante. Notez que les prévisions ne sont pas explosives.

entrez la description de l'image ici

entrez la description de l'image ici

En termes de somme pondérée simple, nous avons: 13 poids; 3 non nul et égal à (1.0.1,0., - 1,0)

entrez la description de l'image ici

entrez la description de l'image ici

Ce matériel a été présenté d'une manière qui n'était pas automatique et nécessitait par conséquent une interaction de l'utilisateur en termes de prise de décisions de modélisation.

IrishStat
la source
Salut IrishStat, c'est encore moi. J'ai adoré votre vaste exemple, mais il y a deux passages qui sont un peu obscurs (du moins pour moi): "L'autocorrélation de cette série indique faussement que" tout va bien "et qu'il pourrait être nécessaire de procéder à un ajustement de Ma (1) "et" Cet acf suggère que nous ajoutons potentiellement deux coefficients de moyenne mobile au modèle ". Que voyez-vous exactement dans ces parcelles ACF qui vous font croire cela? Ne semblent-ils pas tous les deux corrects (presque toutes les valeurs sont dans les "lignes bleues")?
Bruder
: VBruder Je pense que j'avais "tort" avec la déclaration "il pourrait y avoir un ....." Dans le deuxième exemple, il y a des preuves de "mauvais acf" à lag1 et lag 12 suggérant le besoin potentiel pour les coefficients t2o ma . Vous croyez exagérément ces limites car boyh les acf91) et acf (12) sont "dangereusement proches". Vous pouvez me contacter directement à mon adresse e-mail publiée disponible à partir de mes informations.
IrishStat
Belle écriture. "Modèle ARIMA reflétant un ajustement pour trois points de données inhabituels" Vous dites que vous ajoutez trois variables muettes pour ces trois points? En termes simples, comment ces trois valeurs aberrantes seront-elles prises en compte dans les prévisions futures? (Je suis sûr que c'est simple, je ne le connais pas.) De plus, il semble que vos limites d'erreur ne s'agrandissent pas avec le temps. (Ou peut-être que l'erreur liée dépend de la modalité de l'étape?) Merci à l'avance.
Adam
@Adam, les trois variables muettes ne jouent aucun rôle dans les prévisions car les valeurs futures sont toutes à 0. Oui, les limites d'erreur présentées sont incorrectes. Nous avons corrigé cette faille et maintenant AUTOBOX présente des limites d'erreur croissantes au fil du temps. Je suis l'un des développeurs d'AUTOBOX. .
IrishStat
@IrishStat "les trois variables muettes ne jouent aucun rôle dans les prévisions car les valeurs futures sont toutes à 0." Cela signifie-t-il essentiellement qu'elles sont extraites des données? Ils doivent avoir un impact sur les limites de prédiction?
Adam
15

J'ai essayé de le faire dans le chapitre 7 de mon manuel de 1998 avec Makridakis & Wheelwright. Que j'ai réussi ou non, je laisserai les autres juger. Vous pouvez lire une partie du chapitre en ligne via Amazon (à partir de la p311). Recherchez «ARIMA» dans le livre pour persuader Amazon de vous montrer les pages pertinentes.

Mise à jour: j'ai un nouveau livre qui est gratuit et en ligne. Le chapitre ARIMA est ici .

Rob Hyndman
la source
3

Je recommanderais la prévision avec la boîte univariée - modèles Jenkins: concepts et cas par Alan Pankratz. Ce livre classique possède toutes les fonctionnalités que vous avez demandées:

  • utilise un minimum de mathématiques
  • étend la discussion au-delà de la construction d'un modèle en utilisant ce modèle pour prévoir des cas spécifiques
  • utilise des graphiques ainsi que des résultats numériques pour caractériser l'adéquation entre les valeurs prévues et réelles.

Le seul inconvénient est qu'il a été imprimé en 1983 et pourrait ne pas avoir de développements récents. L'éditeur arrive avec une 2e édition en janvier 2014 avec des mises à jour.

prévisionniste
la source
Je recommanderais également l'autre livre d'Alan Pankratz: Forecasting with Dynamic Regression Models. Matériau très similaire, mais couvre un peu plus de terrain; mais avec moins de détails du côté de Box-Jenkins. Heureux d'entendre qu'il y aura une 2e édition en janvier 2014!
Graeme Walsh
-4

Un modèle ARIMA est simplement une moyenne pondérée. Il répond à la double question;

  1. Combien de période (k) dois-je utiliser pour calculer une moyenne pondérée

et

  1. Quels sont précisément les poids k

Il répond à la prière de la jeune fille pour déterminer comment s'adapter aux valeurs précédentes (et aux valeurs précédentes SEUL) afin de projeter la série (qui est vraiment causée par des variables causales non spécifiées) Ainsi, un modèle ARIMA est un modèle causal d'un pauvre.

IrishStat
la source
-1 Cette réponse ne semble pas répondre à la question, qui recherche un "exemple bien expliqué ... * *".
whuber
@whuber: L'OP a demandé une réponse qui "utilise un minimum de mathématiques". Ma réponse a détaillé les mathématiques minimales et était motivée pour expliquer les modèles ARIMA dans les mots courants de tous les jours. Cela n'est jamais fait car les théoriciens des mathématiques se concentrent sur "l'explication haut de gamme" à l'aide de polynômes, d'opérateurs de différenciation, d'optimisation non linéaire, etc.
IrishStat
@Irish Je suis d'accord avec la motivation de garder les calculs bas, en particulier lorsque l'utilisateur le demande. Mais cette réponse semble répondre à une question différente: "qu'est-ce que ARIMA". La nature spécifique de la question d'origine indique également que le PO a une bonne idée de ce qu'est l'ARIMA et de son utilité; ils veulent le voir en action. Je parie que vous pourriez facilement contribuer à une telle étude de cas :-).
whuber
: whuber: Cela aurait été très facile pour moi de le faire et je pourrais simplement le faire.
IrishStat
@Irish, j'ai hâte de le voir. De plus - ce problème n'est pas venu ici, mais il a été soulevé ailleurs - de telles contributions sont potentiellement des moyens plus puissants et plus appréciés de faire savoir aux gens ce que vous pouvez faire que de nombreuses autres formes de marketing.
whuber