Sélection du modèle Box-Jenkins

La procédure de sélection du modèle de Box-Jenkins dans l'analyse des séries chronologiques commence par examiner les fonctions d'autocorrélation et d'autocorrélation partielle de la série. Ces graphiques peuvent suggérer les et appropriés dans un modèle ARMA . La procédure se poursuit en demandant à l'utilisateur d'appliquer les critères AIC / BIC pour sélectionner le modèle le plus parcimonieux parmi ceux qui produisent un modèle avec un terme d'erreur de bruit blanc. $p$ $q$ $(p,q)$

Je me demandais comment ces étapes d'inspection visuelle et de sélection de modèle basée sur des critères affectaient les erreurs-types estimées du modèle final. Je sais que de nombreuses procédures de recherche dans un domaine transversal peuvent biaiser les erreurs standard vers le bas, par exemple.

À la première étape, comment la sélection du nombre approprié de retards en examinant les données (ACF / PACF) a-t-elle un impact sur les erreurs standard des modèles de séries chronologiques?

Je suppose que la sélection du modèle sur la base des scores AIC / BIC aurait un impact analogue à celui des méthodes transversales. En fait, je ne connais pas grand-chose non plus dans ce domaine, donc tout commentaire serait également apprécié sur ce point.

Enfin, si vous notiez le critère précis utilisé pour chaque étape, pourriez-vous amorcer l'ensemble du processus pour estimer les erreurs types et éliminer ces préoccupations?

regression time-series arima model-selection box-jenkins Charlie
la source

le biais dans les erreurs standard (des paramètres?) est-il si important dans les modèles ARMA a-théoriques? Les modèles ARMA ASFAIK sont principalement utilisés pour les prévisions à court terme. Les problèmes d'interprétation des paramètres et de leurs propriétés sont moins (moins?) Importants. Bien sûr, si vous ne voulez pas parler des caractéristiques d'un processus d'innovation (terme d'erreur), planifier pour produire des intervalles de prédiction pertinents.

Dmitrij Celov

@Dmitrij, Il y a deux raisons principales pour lesquelles je suis préoccupé par le biais dans les erreurs standard des coefficients. Le premier, comme vous y avez fait allusion, est la création d'intervalles de prédiction. Le second teste les ruptures structurelles du modèle, une question courante à laquelle un économiste serait intéressé à répondre. Les erreurs standard générées à l'aide d'une procédure de sélection doivent être trop petites, donnant des intervalles de prédiction trop étroits et des statistiques de test trop grandes.

Charlie

mais dans les modèles a-théoriques (c'est-à-dire qu'il n'y a pas de théorie, pas de structure), les ruptures structurelles ont peu à voir avec les paramètres ce serait quelques tests généraux, concernant le comportement des résidus du modèle. Eh bien, dans ce cas, les estimations non biaisées des paramètres des modèles sont moins importantes, ARMA n'a tout simplement pas d'interprétation des modèles structurels. Ainsi, les modèles parcimonieux sont en effet de meilleurs prédicteurs, car ils équilibrent bien les propriétés généralement médiocres des estimateurs à petit échantillon et la précision de la prédiction.

Dmitrij Celov

Notez que même si vous connaissez le processus de génération de données qui a beaucoup de paramètres, dans de petits échantillons, un modèle plus simple fera probablement de meilleures prédictions, mais dans le contexte structurel, les paramètres d'un tel modèle seront très biaisés (biais variable omis)!

Dmitrij Celov

Réponses:

Toute procédure de sélection de modèle affectera les erreurs standard et cela n'est presque jamais pris en compte. Par exemple, les intervalles de prédiction sont calculés conditionnellement sur le modèle estimé et l'estimation des paramètres et la sélection du modèle sont généralement ignorées.

Il devrait être possible d'amorcer l'ensemble de la procédure afin d'estimer l'effet du processus de sélection du modèle. Mais rappelez-vous que l'amorçage de séries temporelles est plus délicat que l'amorçage normal car vous devez préserver la corrélation série. Le bootstrap de bloc est une approche possible même s'il perd une certaine corrélation série en raison de la structure du bloc.

Rob Hyndman
la source

À mon avis, la sélection du nombre approprié de décalages n'est pas différente de la sélection du nombre de séries d'entrée dans une procédure de régression pas à pas. L'importance incrémentielle des décalages ou d'une série d'entrée spécifique est la base de la spécification provisoire du modèle.

Puisque vous avez affirmé que l'acf / pacf est la seule base pour la sélection du modèle Box-Jenkins, permettez-moi de vous dire ce que l'expérience m'a appris. Si une série présente un acf qui ne se désintègre pas, l'approche de Box-Jenkins (vers 1965) suggère de différencier les données. Mais si une série a un changement de niveau, comme les données du Nil , alors la non-stationnarité "visuellement apparente" est un symptôme de la structure nécessaire mais la différenciation n'est pas le remède. Cet ensemble de données du Nil peut être modélisé sans différenciation en identifiant simplement la nécessité d'un changement de niveau en premier. Dans la même veine, on nous enseigne en utilisant les concepts de 1960 que si l'acf présente une structure saisonnière ( c.-à-d.des valeurs significatives à des décalages de s, 2s, 3s, ...) alors nous devrions incorporer une composante saisonnière ARIMA. Aux fins de discussion, considérons une série qui est stationnaire autour d'une moyenne et à intervalles fixes, par exemple chaque mois de juin il y a une "valeur élevée". Cette série est correctement traitée en incorporant une série factice "à l'ancienne" de 0 et de 1 (en juin) afin de traiter la structure saisonnière. Un modèle ARIMA saisonnier utiliserait de façon incorrecte la mémoire au lieu d'une variable X non spécifiée mais en attente d'être trouvée. Ces deux concepts d'identification / d'incorporation d'une structure déterministe non spécifiée sont des applications directes des travaux de I. Chang, William Bell, George Tiao, R. Tsay , Chen et al (à partir de 1978) sous le concept général de détection d'intervention.

Même aujourd'hui, certains analystes exécutent sans réfléchir des stratégies de maximisation de la mémoire, les appelant ARIMA automatique, sans reconnaître que la "modélisation de mémoire sans esprit" suppose que la structure déterministe telle que les impulsions, les changements de niveau, les impulsions saisonnières et les tendances de l'heure locale sont inexistantes ou pires encore mais ne jouent pas rôle dans l'identification des modèles. Cela revient à mettre sa tête dans le sable, à mon humble avis.

IrishStat
la source

Merci pour les excellents conseils sur la sélection des modèles, mais j'étais intéressé par la façon dont ce processus affectait notre inférence par la suite.

Charlie

Charlie: Je ne pense pas que les diagnostics de données initiaux tels que l'examen des autocorrélations ou des corrélations croisées ou toute autre procédure d'identification de modèle comme les présentations graphiques aient un effet sur la signification statistique des paramètres estimés. C'est mon avis et "ici je me tiens, je ne peux pas faire autre". Merci pour les félicitations et si je peux aider le jeune Charlie de quelque manière que ce soit, veuillez me contacter car j'aime être répertorié comme ressource de soutien (non rémunérée!) Dans les thèses de doctorat.

IrishStat