Quelle est / sont la différence «mécanique» entre la régression linéaire multiple avec décalages et séries chronologiques?

14

Je suis diplômé des affaires et de l'économie et j'étudie actuellement pour une maîtrise en ingénierie des données. Tout en étudiant la régression linéaire (LR) puis l'analyse des séries chronologiques (TS), une question m'est venue à l'esprit. Pourquoi créer une toute nouvelle méthode, c'est-à-dire des séries chronologiques (ARIMA), au lieu d'utiliser une régression linéaire multiple et d'y ajouter des variables décalées (avec l'ordre des décalages déterminé à l'aide d'ACF et de PACF)? Le professeur m'a donc suggéré d'écrire un petit essai sur la question. Je ne viendrais pas chercher de l'aide les mains vides, j'ai donc fait mes recherches sur le sujet.

Je savais déjà que lors de l'utilisation de LR, si les hypothèses de Gauss-Markov sont violées, la régression OLS est incorrecte, et cela se produit lors de l'utilisation de données de séries temporelles (autocorrélation, etc.). (une autre question à ce sujet, une hypothèse de GM est que les variables indépendantes devraient être normalement distribuées? ou juste la variable dépendante conditionnelle aux variables indépendantes?)

Je sais également qu'en utilisant une régression à décalage distribué, ce que je pense proposer ici et en utilisant OLS pour estimer les paramètres, la multicolinéarité entre les variables peut (évidemment) se produire, donc les estimations seraient erronées.

Dans un article similaire sur TS et LR ici, @IrishStat a déclaré:

... un modèle de régression est un cas particulier d'un modèle de fonction de transfert également connu sous le nom de modèle de régression dynamique ou modèle XARMAX. Le point saillant est que l'identification du modèle dans les séries chronologiques, c'est-à-dire les différences appropriées, les décalages appropriés des X, la structure ARIMA appropriée, l'identification appropriée de la structure déterministe non spécifiée comme les impulsions, les changements de niveau, les tendances temporelles locales, les impulsions saisonnières et l'incorporation des changements de paramètres ou de la variance d'erreur doivent être pris en compte.

(J'ai également lu son article dans Autobox sur Box Jenkins vs LR.) Mais cela ne résout toujours pas ma question (ou du moins cela ne clarifie pas les différentes mécaniques de RL et TS pour moi).

Il est évident que même avec des variables retardées, des problèmes OLS se posent et ce n'est ni efficace ni correct, mais lors de l'utilisation du maximum de vraisemblance, ces problèmes persistent-ils? J'ai lu que ARIMA est estimé par le maximum de vraisemblance, donc si le LR avec des retards est estimé avec ML au lieu de OLS, cela donne-t-il les coefficients "corrects" (supposons que nous incluions également les termes d'erreur décalés, comme un MA d'ordre) q).

Bref, le problème est-il OLS? Le problème est-il résolu en appliquant le ML?

Miguel M.
la source
4
Étrange ressemblance avec John Maynard Keynes.
Nick Cox
Salut @ NickCox, oui, il est mon économiste préféré, je pense qu'il était un homme incroyable et extrêmement talentueux à bien des égards ... une aide sur ma question? Ce que j'essaie de comprendre, c'est pourquoi le modèle retardé ne fonctionnera pas avec l'estimation OLS, et s'il estimerait correctement avec une estimation de probabilité maximale. Je comprends que le meilleur modèle est une fonction de transfert et je l'étudie actuellement. Mais la question théorique reste là sur l'OLS. Si aucune autocorrélation n'était présente car les retards l'éliminaient (supposons également que le multicoll. N'est pas présent), cela fonctionnerait-il? ou y a-t-il encore et sous
Miguel M.
@NickCox ... effet / violation des hypothèses gaussiennes avec lesquelles OLS ne peut pas fonctionner et qui ne peuvent pas être adaptées avec cette méthode? Comme vous pouvez le voir, je suis un peu perdu avec cela, si c'est trop long pour répondre, s'il vous plaît si vous pouvez fournir une conférence qui pourrait éclairer, j'apprécierais aussi
Miguel M.
1
En termes de mécanique, permettez-moi de suggérer que le modèle ARMA pour l'utilisateur suggéré (différencié de manière appropriée) reflète la non-stationnarité.Si ce filtre est appliqué aux deux séries correctement différenciées, la paire de séries résultante peut souvent être étudiée via des procédures de corrélation croisée donnant une structure de décalage suggérée (compréhension). Cette structure de décalage peut ensuite être appliquée à la série d'origine correctement différenciée pour donner une suggestion sur la série non spécifiée / d'arrière-plan (le processus d'erreur provisoire.). Ce processus d'erreur peut ensuite être étudié pour produire l'ARMA approprié.
IrishStat
@IrishStat alors s'il vous plaît laissez-moi reformuler ce que vous venez de dire. Ayons la variable dépendante Yt et la variable indépendante Xt, nous différencions Yt et Xt jusqu'à ce que nous ayons une stationnarité dans les deux, puis nous pouvons appliquer la fonction de corrélation croisée pour découvrir la structure de décalage. Ensuite, nous régressons de Yt à Xt et nous étudions le terme d'erreur. Si nous trouvons la structure ARMA dans le terme d'erreur, nous l'appliquons dans le modèle jusqu'à ce que nous ayons du bruit blanc, n'est-ce pas? Mais, ma question est toujours, est-ce que ce dernier modèle est équipé via OLS? Sinon, pourquoi pas, et quelle méthode utilisons-nous?
Miguel M.

Réponses:

9

Pourquoi créer une toute nouvelle méthode, c'est-à-dire des séries chronologiques (ARIMA), au lieu d'utiliser une régression linéaire multiple et d'y ajouter des variables décalées (avec l'ordre des décalages déterminé à l'aide d'ACF et de PACF)?

β^OLS=(XX)1XyX, et donc l'estimateur OLS est irréalisable.

une hypothèse de GM est que les variables indépendantes devraient être normalement distribuées? ou juste la variable dépendante conditionnelle aux variables indépendantes?

L'hypothèse de normalité est parfois invoquée pour les erreurs de modèle, pas pour les variables indépendantes. Cependant, la normalité n'est requise ni pour la cohérence et l'efficacité de l'estimateur OLS ni pour le théorème de Gauss-Markov. Un article de Wikipedia sur le théorème de Gauss-Markov déclare explicitement que "les erreurs n'ont pas besoin d'être normales".

la multicolinéarité entre les variables peut (évidemment) se produire, donc les estimations seraient fausses.

Un degré élevé de multicolinéarité signifie une variance gonflée de l'estimateur OLS. Cependant, l'estimateur OLS est toujours BLEU tant que la multicolinéarité n'est pas parfaite. Votre déclaration ne semble donc pas correcte.

Il est évident que même avec des variables retardées, des problèmes OLS se posent et ce n'est ni efficace ni correct, mais lors de l'utilisation du maximum de vraisemblance, ces problèmes persistent-ils?

Un modèle AR peut être estimé en utilisant OLS et ML; ces deux méthodes donnent des estimateurs cohérents. Les modèles MA et ARMA ne peuvent pas être estimés par OLS, donc ML est le choix principal; encore une fois, c'est cohérent. L'autre propriété intéressante est l'efficacité, et ici je ne suis pas complètement sûr (mais clairement l'information devrait être disponible quelque part car la question est assez standard). J'essaierais de commenter la «justesse», mais je ne suis pas sûr de ce que vous entendez par là.

Richard Hardy
la source
Bonjour M. Hardy, merci beaucoup pour la réponse. Concernant les valeurs observées vs non observées, juste pour résumer. Dans ARIMA et les séries temporelles (plus spécifiquement XARIMAX), nous utilisons une approche "dynamique", car nous utilisons l'erreur de prédiction, et en régression linéaire nous ne les utilisons pas - mais nous pourrions néanmoins les utiliser. Je ne comprends donc pas le problème ici. Ou, comme le dit @IrishStat, la seule différence est le chemin vers les stratégies d'identification et de révision des modèles?
Miguel M.
Et qu'en est-il de l'estimation, l'OLS est-il (encore) correct lorsqu'il inclut des erreurs retardées dans le modèle? Concernant la multicolinéarité, je voulais dire que les coefficients estimés pourraient ne pas être corrects, car leur estimation a une grande variance. Par méthode correcte, je voulais dire que si l'utilisation de l'OLS donne des estimations impartiales et efficaces par rapport à la ML lors de l'utilisation des modèles décalés proposés.
Miguel M.
@MiguelM, je voyage maintenant, je vais essayer de revenir plus tard.
Richard Hardy
1
Concernant "dans la régression linéaire, nous ne les utilisons pas - mais nous pourrions néanmoins les utiliser": nous n'observons pas ces variables, et donc elles ne peuvent pas être utilisées dans le cadre de régression linéaire en raison de la mécanique qui s'y trouve (comme je l'ai noté dans la réponse, l'estimateur est irréalisable); cependant, ils peuvent être utilisés dans le cadre ARIMA. Concernant "OLS est-il (encore) correct lors de l'inclusion d'erreurs retardées dans le modèle?", Oui, cela devrait être vrai. En ce qui concerne la «correction», si le modèle est correctement spécifié et que OLS et ML sont réalisables, les deux devraient fonctionner correctement. En cas de mauvaise spécification, les choses ont tendance à mal tourner.
Richard Hardy
1
y=β0+β1x+εxy=β0+β1x+εx
5

Voilà une excellente question. La vraie différence entre les modèles ARIMA et la régression linéaire multiple réside dans votre structure d'erreur. Vous pouvez manipuler les variables indépendantes dans un modèle de régression linéaire multiple afin qu'elles correspondent à vos données de série chronologique, ce que dit @IrishStat. Cependant, après cela, vous devez incorporer les erreurs ARIMA dans votre modèle de régression multiple pour obtenir un coefficient et des résultats de test corrects. Un excellent livre gratuit à ce sujet est: https://www.otexts.org/fpp/9/1 . J'ai lié la section qui traite de la combinaison d'ARIMA et de plusieurs modèles de régression.

LindsayL
la source
1

Bonne question, j'ai en fait construit les deux dans mon travail de jour en tant que Data Scientist. Les modèles de séries chronologiques sont faciles à construire (le package de prévisions dans R vous permet d'en créer un en moins en 5 secondes), identique ou plus précis que les modèles de régression, etc. En général, il faut toujours construire des séries chronologiques, puis régresser. Il y a aussi des implications philosophiques des séries chronologiques, si vous pouvez prédire sans rien savoir, qu'est-ce que cela signifie?

Mon point de vue sur Darlington. 1) "La régression est beaucoup plus flexible et puissante, produisant de meilleurs modèles. Ce point est développé à de nombreux endroits tout au long du travail."

Non, bien au contraire. Les modèles de régression font beaucoup plus d'hypothèses que les modèles de séries chronologiques. Moins il y a d'hypothèses, plus il est probable que la capacité de résister au tremblement de terre (changement de régime). De plus, les modèles de séries chronologiques répondent plus rapidement aux changements brusques.

2) "La régression est beaucoup plus facile à maîtriser que l'ARIMA, du moins pour ceux qui connaissent déjà l'utilisation de la régression dans d'autres domaines." Il s'agit d'un raisonnement circulaire.

3) "La régression utilise un algorithme de calcul" fermé "qui est essentiellement garanti de produire des résultats si possible, tandis que ARIMA et de nombreuses autres méthodes utilisent des algorithmes itératifs qui échouent souvent à trouver une solution. J'ai souvent vu la méthode ARIMA" raccrocher " "sur des données qui n'ont posé aucun problème à la méthode de régression."

La régression vous donne une réponse, mais est-ce la bonne réponse? Si je construis des modèles de régression linéaire et d'apprentissage automatique et qu'ils aboutissent tous à la même conclusion, qu'est-ce que cela signifie?

Donc, en résumé, oui, la régression et les séries chronologiques peuvent toutes deux répondre à la même question et techniquement, les séries temporelles sont techniquement une régression (quoique auto-régression). Les modèles de séries chronologiques sont moins complexes et donc plus robustes que les modèles de régression. Si vous pensez à la spécialisation, les modèles TS se spécialisent dans la prévision tandis que la régression se spécialise dans la compréhension. Cela se résume à savoir si vous voulez expliquer ou prédire.

Modèle de Markov caché
la source
1
"Les modèles de séries chronologiques sont moins complexes et donc plus robustes que les modèles de régression" .... Ce que vous vouliez dire était "Les modèles ARIMA sont moins complexes et donc plus robustes que les modèles de régression". L'intégration de l'ARIMA et de la régression est appelée modèles de fonction de transfert ... qui est alors le choix judicieux combinant ainsi à la fois la compréhension (régression) et les facteurs de fond inconnus / non spécifiés (ARIMA).
IrishStat
2
@IrishStat Bonjour M. Reilly, j'ai lu vos réponses à plusieurs articles ici dans stackexchange, et j'ai également lu de nombreux articles dans Autobox ainsi que les liens pour le cours sur les séries chronologiques de PSU, mais je ne le fais toujours pas comprendre pourquoi (ou si) une régression linéaire (en utilisant OLS), avec l'utilisation de variables décalées et de termes d'erreur décalés si nécessaire ne fonctionnerait pas
Miguel M.
@IrishStat est-ce la méthode OLS qui ne fonctionne pas?
Miguel M.
1
IrishStat pour développer votre point, l'objectif serait la causalité de Granger. Par exemple, même si un coefficient est statistiquement significatif, il peut ne pas être nécessairement significatif pour améliorer la précision des prévisions. Dans mes recherches, j'ai trouvé que les modèles de régression (linéaire, lasso, etc.) ont tendance à dire que les choses sont importantes qu'elles ne le sont réellement, tandis que la forêt aléatoire a tendance à les déclasser et à identifier les vrais leviers. De plus, la forêt aléatoire a la même précision hors échantillon que les modèles linéaires. Le seul inconvénient est que vous ne pouvez pas dire quels sont réellement les coefficients.
Modèle de Markov caché
2
@MiguelM. Cela pourrait certainement fonctionner car une fonction de transfert est un modèle de décalage distribué polynomial comprenant peut-être des changements de niveau / tendances temporelles / impulsions saisonnières détectés empiriquement tout en ajustant les impulsions (anomalies ponctuelles) .Je pense que la principale différence est le chemin vers l'identification et les stratégies de révision du modèle
IrishStat
0

En pensant que la différence la plus profonde entre les fonctions de transfert et la régression linéaire multipe (dans son utilisation habituelle) réside dans leurs objectifs, les régressions multiples sont orientées pour trouver les principaux déterminants causaux observables de la variable dépendante tandis que les fonctions de transfert veulent simplement prévoir l'effet sur une personne dépendante variable de la variation d'une variable exogène spécifique ... En résumé, la régression multiple est orientée vers une explication exhaustive et une fonction de transfert vers la prévision d'effets très spécifiques ...

Rodolfo
la source
Je ne pense pas que ce soit tout à fait exact, car les deux méthodes produisent des coefficients qui peuvent en fait être interprétés. De plus, les fonctions de transfert s'appuient fortement sur l'analyse causale et sont en fait mieux à même de distinguer que la régression linéaire multiple. En outre, ce post demande les différences mécaniques / méthodologiques entre ces deux méthodes
Miguel M.