Relation et différence entre séries chronologiques et régression?

12

Quelles sont la relation et la différence entre les séries chronologiques et la régression?

Pour les modèles et les hypothèses , est-il exact que les modèles de régression supposent l'indépendance entre les variables de sortie pour différentes valeurs de la variable d'entrée, contrairement au modèle de série chronologique? Quelles sont les autres différences?

Pour les méthodes , à partir d' un site Web de Darlington

Il existe un certain nombre d'approches pour l'analyse des séries chronologiques, mais les deux plus connues sont la méthode de régression et la méthode de Box-Jenkins (1976) ou ARIMA (AutoRegressive Integrated Moving Average). Ce document présente la méthode de régression. Je considère la méthode de régression bien supérieure à ARIMA pour trois raisons principales

Je ne comprends pas très bien ce qu'est la "méthode de régression" pour les séries chronologiques sur le site Web, et en quoi elle diffère de la méthode Box-Jenkins ou ARIMA. J'apprécie si quelqu'un peut donner un aperçu de ces questions.

Merci et salutations!

Tim
la source
2
La plupart des réponses et des commentaires se concentrent ici sur la question plus spécifique vers la fin. C'est juste un indicateur que l'analyse des séries chronologiques est bien plus que Box-Jenkins ou ARIMA. Des domaines entiers de l'analyse des séries chronologiques ont un objectif assez différent (ou du moins plus général). Les modèles de composants non observés ne sont qu'un exemple parmi d'autres.
Nick Cox

Réponses:

17

Je pense vraiment que c'est une bonne question et mérite une réponse. Le lien fourni est écrit par un psychologue qui prétend qu'une méthode de brassage maison est une meilleure façon d'analyser les séries chronologiques que Box-Jenkins. J'espère que ma tentative de réponse encouragera d'autres, qui connaissent mieux les séries chronologiques, à contribuer.

Depuis son introduction, il semble que Darlington défend l'approche consistant à simplement ajuster un modèle AR par moindres carrés. Autrement dit, si vous souhaitez adapter le modèle à la série , vous pouvez simplement régresser la série sur la série avec décalage , décalage , et ainsi de suite jusqu'au décalage , en utilisant une régression multiple ordinaire. C'est certainement permis; dans R, c'est même une option dans la fonction. Je l'ai testé et il a tendance à donner des réponses similaires à la méthode par défaut pour ajuster un modèle AR dans R.z t z t 1 2 k

zt=α1zt1++αkztk+εt
ztzt12kar

Il préconise également de régresser sur des choses comme ou des puissances de pour trouver des tendances. Encore une fois, c'est très bien. De nombreux livres de séries chronologiques en parlent, par exemple Shumway-Stoffer et Cowpertwait-Metcalfe. En règle générale, une analyse de séries chronologiques peut se dérouler comme suit: vous trouvez une tendance, la supprimez, puis ajustez un modèle aux résidus. t tzttt

Mais il semble qu'il préconise également un sur-ajustement, puis utilise la réduction de l'erreur quadratique moyenne entre la série ajustée et les données comme preuve que sa méthode est meilleure. Par exemple:

Je pense que les corrélogrammes sont désormais obsolètes. Leur objectif principal était de permettre aux travailleurs de deviner quels modèles correspondraient le mieux aux données, mais la vitesse des ordinateurs modernes (au moins en régression sinon dans l'ajustement des modèles de séries chronologiques) permet à un travailleur d'ajuster simplement plusieurs modèles et de voir exactement comment chacun s'adapte tel que mesuré par l'erreur quadratique moyenne. [La question de la capitalisation au hasard n'est pas pertinente pour ce choix, car les deux méthodes sont également sensibles à ce problème.]

Ce n'est pas une bonne idée parce que le test d'un modèle est censé être à quel point il peut prévoir, pas à quel point il correspond aux données existantes. Dans ses trois exemples, il utilise «l'erreur quadratique moyenne ajustée» comme critère de qualité de l'ajustement. Bien sûr, le sur-ajustement d'un modèle va réduire l'estimation de l'erreur dans l'échantillon, donc son affirmation selon laquelle ses modèles sont "meilleurs" parce qu'ils ont un RMSE plus petit est fausse.

En bref, puisqu'il utilise le mauvais critère pour évaluer la qualité d'un modèle, il arrive à des conclusions erronées sur la régression par rapport à ARIMA. Je parierais que s'il avait testé la capacité prédictive des modèles à la place, ARIMA se serait imposé. Peut-être que quelqu'un peut l'essayer s'il a accès aux livres qu'il mentionne ici .

[Supplémentaire: pour en savoir plus sur l'idée de régression, vous voudrez peut-être consulter des livres de séries chronologiques plus anciens qui ont été écrits avant que ARIMA ne devienne le plus populaire. Par exemple, Kendall, Time-Series , 1973, Chapter 11 a un chapitre entier sur cette méthode et des comparaisons avec ARIMA.]

Flet
la source
La question est de savoir quelles sont les différences (inhérentes)?
hbaghishani
Pour autant que je sache, l'auteur n'a jamais décrit sa méthode de fabrication artisanale dans une publication à comité de lecture et les références à et de la littérature statistique semblent minimes et ses principales publications sur des sujets méthodologiques remontent aux années 70. À strictement parler, rien de tout cela ne prouve quoi que ce soit, mais sans suffisamment de temps ou d'expertise pour évaluer moi-même les réclamations, je serais extrêmement réticent à en utiliser.
Gala
@hbaghishani, la différence de fond est que les données autocorrélées, c'est-à-dire dans chaque série, déforment l'interprétation croisée. En outre, les violations gaussiennes, par exemple la moyenne constante des erreurs, la variance constante dans le temps, les paramètres constants dans le temps doivent être prises en compte / rectifiées.
IrishStat
@flounderer Les gens écrivent des manuels pour les vendre et récolter des récompenses. Ils incluent parfois des méthodes anachroniques qui sont mal enseignées car, à une date antérieure, elles étaient considérées comme correctes. Pour augmenter les ventes, l'éditeur exige souvent (de mon expérience personnelle) une méthodologie dépassée mais incorrecte car ces méthodes sont dans le programme.
IrishStat
La modélisation @IrishStat des données autocorrélées pourrait être effectuée par des modèles de régression dynamique. De plus, d'autres modèles, comme des modèles mixtes, pourraient être utilisés pour ces données. Donc, je ne pense pas que cette fonctionnalité soit la différence de fond.
hbaghishani
7

Le professeur E. Parzen, peut-être quelque peu envieux de ne pas avoir proposé les méthodes innovantes de Box et Jenkins, a suggéré cette approche de sur-ajustement puis de démission. Il échoue pour de nombreuses raisons (dont beaucoup ont été bien résumées par Flounderer), notamment le fait de ne pas identifier et corriger les impulsions, les changements de niveau, les impulsions saisonnières et les tendances de l'heure locale. De plus, les changements de paramètres dans le temps ou les changements de variance d'erreur dans le temps doivent être pris en compte.

J'ai écrit un article qui pourrait vous intéresser. Il s'appelle "Regression vs Box-Jenkins" et est disponible sur http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting / doc_download / 24-regression-vs-box-jenkins

Un commentaire sur la procédure de Darlington reflétant le temps, le temps * le temps, le temps * le temps * le temps * le temps comme prédicteurs. En l'absence de détection d'intervention conduisant à l'isolement d'effets aberrants, il est tout à fait possible (et incorrect!) De conclure pour des puissances de temps plus élevées. Méfiez-vous des non-statisticiens effectuant des analyses statistiques comme vous vous méfieriez des statisticiens pratiquant la chirurgie cérébrale. Par souci d'équité, on pourrait également se méfier des statisticiens / mathématiciens n'appartenant pas aux séries chronologiques qui tentent d'effectuer une analyse des séries chronologiques avec une formation limitée à l'analyse des séries chronologiques.

D'autres affiches (particulièrement blanches) sur cette liste ont à plusieurs reprises mis en garde contre l'utilisation de cette "approche appropriée", principalement dans un cadre univarié. Cet avertissement s'applique également aux modèles causaux.

J'espère que cela t'aides.

IrishStat
la source