Quelles sont la relation et la différence entre les séries chronologiques et la régression?
Pour les modèles et les hypothèses , est-il exact que les modèles de régression supposent l'indépendance entre les variables de sortie pour différentes valeurs de la variable d'entrée, contrairement au modèle de série chronologique? Quelles sont les autres différences?
Pour les méthodes , à partir d' un site Web de Darlington
Il existe un certain nombre d'approches pour l'analyse des séries chronologiques, mais les deux plus connues sont la méthode de régression et la méthode de Box-Jenkins (1976) ou ARIMA (AutoRegressive Integrated Moving Average). Ce document présente la méthode de régression. Je considère la méthode de régression bien supérieure à ARIMA pour trois raisons principales
Je ne comprends pas très bien ce qu'est la "méthode de régression" pour les séries chronologiques sur le site Web, et en quoi elle diffère de la méthode Box-Jenkins ou ARIMA. J'apprécie si quelqu'un peut donner un aperçu de ces questions.
Merci et salutations!
Réponses:
Je pense vraiment que c'est une bonne question et mérite une réponse. Le lien fourni est écrit par un psychologue qui prétend qu'une méthode de brassage maison est une meilleure façon d'analyser les séries chronologiques que Box-Jenkins. J'espère que ma tentative de réponse encouragera d'autres, qui connaissent mieux les séries chronologiques, à contribuer.
Depuis son introduction, il semble que Darlington défend l'approche consistant à simplement ajuster un modèle AR par moindres carrés. Autrement dit, si vous souhaitez adapter le modèle à la série , vous pouvez simplement régresser la série sur la série avec décalage , décalage , et ainsi de suite jusqu'au décalage , en utilisant une régression multiple ordinaire. C'est certainement permis; dans R, c'est même une option dans la fonction. Je l'ai testé et il a tendance à donner des réponses similaires à la méthode par défaut pour ajuster un modèle AR dans R.z t z t 1 2 k
ar
Il préconise également de régresser sur des choses comme ou des puissances de pour trouver des tendances. Encore une fois, c'est très bien. De nombreux livres de séries chronologiques en parlent, par exemple Shumway-Stoffer et Cowpertwait-Metcalfe. En règle générale, une analyse de séries chronologiques peut se dérouler comme suit: vous trouvez une tendance, la supprimez, puis ajustez un modèle aux résidus. t tzt t t
Mais il semble qu'il préconise également un sur-ajustement, puis utilise la réduction de l'erreur quadratique moyenne entre la série ajustée et les données comme preuve que sa méthode est meilleure. Par exemple:
Ce n'est pas une bonne idée parce que le test d'un modèle est censé être à quel point il peut prévoir, pas à quel point il correspond aux données existantes. Dans ses trois exemples, il utilise «l'erreur quadratique moyenne ajustée» comme critère de qualité de l'ajustement. Bien sûr, le sur-ajustement d'un modèle va réduire l'estimation de l'erreur dans l'échantillon, donc son affirmation selon laquelle ses modèles sont "meilleurs" parce qu'ils ont un RMSE plus petit est fausse.
En bref, puisqu'il utilise le mauvais critère pour évaluer la qualité d'un modèle, il arrive à des conclusions erronées sur la régression par rapport à ARIMA. Je parierais que s'il avait testé la capacité prédictive des modèles à la place, ARIMA se serait imposé. Peut-être que quelqu'un peut l'essayer s'il a accès aux livres qu'il mentionne ici .
[Supplémentaire: pour en savoir plus sur l'idée de régression, vous voudrez peut-être consulter des livres de séries chronologiques plus anciens qui ont été écrits avant que ARIMA ne devienne le plus populaire. Par exemple, Kendall, Time-Series , 1973, Chapter 11 a un chapitre entier sur cette méthode et des comparaisons avec ARIMA.]
la source
Le professeur E. Parzen, peut-être quelque peu envieux de ne pas avoir proposé les méthodes innovantes de Box et Jenkins, a suggéré cette approche de sur-ajustement puis de démission. Il échoue pour de nombreuses raisons (dont beaucoup ont été bien résumées par Flounderer), notamment le fait de ne pas identifier et corriger les impulsions, les changements de niveau, les impulsions saisonnières et les tendances de l'heure locale. De plus, les changements de paramètres dans le temps ou les changements de variance d'erreur dans le temps doivent être pris en compte.
J'ai écrit un article qui pourrait vous intéresser. Il s'appelle "Regression vs Box-Jenkins" et est disponible sur http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting / doc_download / 24-regression-vs-box-jenkins
Un commentaire sur la procédure de Darlington reflétant le temps, le temps * le temps, le temps * le temps * le temps * le temps comme prédicteurs. En l'absence de détection d'intervention conduisant à l'isolement d'effets aberrants, il est tout à fait possible (et incorrect!) De conclure pour des puissances de temps plus élevées. Méfiez-vous des non-statisticiens effectuant des analyses statistiques comme vous vous méfieriez des statisticiens pratiquant la chirurgie cérébrale. Par souci d'équité, on pourrait également se méfier des statisticiens / mathématiciens n'appartenant pas aux séries chronologiques qui tentent d'effectuer une analyse des séries chronologiques avec une formation limitée à l'analyse des séries chronologiques.
D'autres affiches (particulièrement blanches) sur cette liste ont à plusieurs reprises mis en garde contre l'utilisation de cette "approche appropriée", principalement dans un cadre univarié. Cet avertissement s'applique également aux modèles causaux.
J'espère que cela t'aides.
la source