Je suis diplômé des affaires et de l'économie et j'étudie actuellement pour une maîtrise en ingénierie des données. Tout en étudiant la régression linéaire (LR) puis l'analyse des séries chronologiques (TS), une question m'est venue à l'esprit. Pourquoi créer une toute nouvelle méthode, c'est-à-dire des séries chronologiques (ARIMA), au lieu d'utiliser une régression linéaire multiple et d'y ajouter des variables décalées (avec l'ordre des décalages déterminé à l'aide d'ACF et de PACF)? Le professeur m'a donc suggéré d'écrire un petit essai sur la question. Je ne viendrais pas chercher de l'aide les mains vides, j'ai donc fait mes recherches sur le sujet.
Je savais déjà que lors de l'utilisation de LR, si les hypothèses de Gauss-Markov sont violées, la régression OLS est incorrecte, et cela se produit lors de l'utilisation de données de séries temporelles (autocorrélation, etc.). (une autre question à ce sujet, une hypothèse de GM est que les variables indépendantes devraient être normalement distribuées? ou juste la variable dépendante conditionnelle aux variables indépendantes?)
Je sais également qu'en utilisant une régression à décalage distribué, ce que je pense proposer ici et en utilisant OLS pour estimer les paramètres, la multicolinéarité entre les variables peut (évidemment) se produire, donc les estimations seraient erronées.
Dans un article similaire sur TS et LR ici, @IrishStat a déclaré:
... un modèle de régression est un cas particulier d'un modèle de fonction de transfert également connu sous le nom de modèle de régression dynamique ou modèle XARMAX. Le point saillant est que l'identification du modèle dans les séries chronologiques, c'est-à-dire les différences appropriées, les décalages appropriés des X, la structure ARIMA appropriée, l'identification appropriée de la structure déterministe non spécifiée comme les impulsions, les changements de niveau, les tendances temporelles locales, les impulsions saisonnières et l'incorporation des changements de paramètres ou de la variance d'erreur doivent être pris en compte.
(J'ai également lu son article dans Autobox sur Box Jenkins vs LR.) Mais cela ne résout toujours pas ma question (ou du moins cela ne clarifie pas les différentes mécaniques de RL et TS pour moi).
Il est évident que même avec des variables retardées, des problèmes OLS se posent et ce n'est ni efficace ni correct, mais lors de l'utilisation du maximum de vraisemblance, ces problèmes persistent-ils? J'ai lu que ARIMA est estimé par le maximum de vraisemblance, donc si le LR avec des retards est estimé avec ML au lieu de OLS, cela donne-t-il les coefficients "corrects" (supposons que nous incluions également les termes d'erreur décalés, comme un MA d'ordre) q).
Bref, le problème est-il OLS? Le problème est-il résolu en appliquant le ML?
Réponses:
L'hypothèse de normalité est parfois invoquée pour les erreurs de modèle, pas pour les variables indépendantes. Cependant, la normalité n'est requise ni pour la cohérence et l'efficacité de l'estimateur OLS ni pour le théorème de Gauss-Markov. Un article de Wikipedia sur le théorème de Gauss-Markov déclare explicitement que "les erreurs n'ont pas besoin d'être normales".
Un degré élevé de multicolinéarité signifie une variance gonflée de l'estimateur OLS. Cependant, l'estimateur OLS est toujours BLEU tant que la multicolinéarité n'est pas parfaite. Votre déclaration ne semble donc pas correcte.
Un modèle AR peut être estimé en utilisant OLS et ML; ces deux méthodes donnent des estimateurs cohérents. Les modèles MA et ARMA ne peuvent pas être estimés par OLS, donc ML est le choix principal; encore une fois, c'est cohérent. L'autre propriété intéressante est l'efficacité, et ici je ne suis pas complètement sûr (mais clairement l'information devrait être disponible quelque part car la question est assez standard). J'essaierais de commenter la «justesse», mais je ne suis pas sûr de ce que vous entendez par là.
la source
Voilà une excellente question. La vraie différence entre les modèles ARIMA et la régression linéaire multiple réside dans votre structure d'erreur. Vous pouvez manipuler les variables indépendantes dans un modèle de régression linéaire multiple afin qu'elles correspondent à vos données de série chronologique, ce que dit @IrishStat. Cependant, après cela, vous devez incorporer les erreurs ARIMA dans votre modèle de régression multiple pour obtenir un coefficient et des résultats de test corrects. Un excellent livre gratuit à ce sujet est: https://www.otexts.org/fpp/9/1 . J'ai lié la section qui traite de la combinaison d'ARIMA et de plusieurs modèles de régression.
la source
Bonne question, j'ai en fait construit les deux dans mon travail de jour en tant que Data Scientist. Les modèles de séries chronologiques sont faciles à construire (le package de prévisions dans R vous permet d'en créer un en moins en 5 secondes), identique ou plus précis que les modèles de régression, etc. En général, il faut toujours construire des séries chronologiques, puis régresser. Il y a aussi des implications philosophiques des séries chronologiques, si vous pouvez prédire sans rien savoir, qu'est-ce que cela signifie?
Mon point de vue sur Darlington. 1) "La régression est beaucoup plus flexible et puissante, produisant de meilleurs modèles. Ce point est développé à de nombreux endroits tout au long du travail."
Non, bien au contraire. Les modèles de régression font beaucoup plus d'hypothèses que les modèles de séries chronologiques. Moins il y a d'hypothèses, plus il est probable que la capacité de résister au tremblement de terre (changement de régime). De plus, les modèles de séries chronologiques répondent plus rapidement aux changements brusques.
2) "La régression est beaucoup plus facile à maîtriser que l'ARIMA, du moins pour ceux qui connaissent déjà l'utilisation de la régression dans d'autres domaines." Il s'agit d'un raisonnement circulaire.
3) "La régression utilise un algorithme de calcul" fermé "qui est essentiellement garanti de produire des résultats si possible, tandis que ARIMA et de nombreuses autres méthodes utilisent des algorithmes itératifs qui échouent souvent à trouver une solution. J'ai souvent vu la méthode ARIMA" raccrocher " "sur des données qui n'ont posé aucun problème à la méthode de régression."
La régression vous donne une réponse, mais est-ce la bonne réponse? Si je construis des modèles de régression linéaire et d'apprentissage automatique et qu'ils aboutissent tous à la même conclusion, qu'est-ce que cela signifie?
Donc, en résumé, oui, la régression et les séries chronologiques peuvent toutes deux répondre à la même question et techniquement, les séries temporelles sont techniquement une régression (quoique auto-régression). Les modèles de séries chronologiques sont moins complexes et donc plus robustes que les modèles de régression. Si vous pensez à la spécialisation, les modèles TS se spécialisent dans la prévision tandis que la régression se spécialise dans la compréhension. Cela se résume à savoir si vous voulez expliquer ou prédire.
la source
En pensant que la différence la plus profonde entre les fonctions de transfert et la régression linéaire multipe (dans son utilisation habituelle) réside dans leurs objectifs, les régressions multiples sont orientées pour trouver les principaux déterminants causaux observables de la variable dépendante tandis que les fonctions de transfert veulent simplement prévoir l'effet sur une personne dépendante variable de la variation d'une variable exogène spécifique ... En résumé, la régression multiple est orientée vers une explication exhaustive et une fonction de transfert vers la prévision d'effets très spécifiques ...
la source