Ayant travaillé principalement avec des données transversales jusqu'à présent et très récemment parcouru, parcourant un tas de publications introductives sur les séries chronologiques, je me demande quel rôle jouent les variables explicatives dans l'analyse des séries chronologiques.
Je voudrais expliquer une tendance plutôt que la décroissance. La plupart de ce que je lis comme introduction suppose que la série découle d'un processus stochastique. J'ai lu sur les processus AR (p) et MA ainsi que sur la modélisation ARIMA. Voulant traiter plus d'informations que les seuls processus autorégressifs, j'ai trouvé VAR / VECM et j'ai exécuté quelques exemples, mais je me demande toujours s'il y a un cas qui est plus proche de ce que font les explications dans les sections transversales.
La motivation derrière cela est que la décomposition de ma série montre que la tendance est le principal contributeur alors que l'effet résiduel et saisonnier ne joue guère un rôle. Je voudrais expliquer cette tendance.
Puis-je / dois-je régresser ma série sur plusieurs séries différentes? Intuitivement, j'utiliserais gls en raison de la corrélation en série (je ne suis pas sûr de la structure du cor). J'ai entendu parler de régression fallacieuse et je comprends que c'est un piège, néanmoins je cherche un moyen d'expliquer une tendance.
Est-ce complètement faux ou rare? Ou ai-je juste raté le bon chapitre jusqu'à présent?
la source
La même intuition que dans la régression transversale peut être utilisée dans la régression de séries chronologiques. Il est parfaitement valable d'essayer d'expliquer la tendance à l'aide d'autres variables. La principale différence est qu'il est implicitement supposé que les régresseurs sont des variables aléatoires. Donc, dans le modèle de régression:
La partie pratique de la régression reste la même, toutes les statistiques et méthodes habituelles s'appliquent.
La principale mise en garde de la régression chronologique est qu'elle peut échouer massivement lorsque les régresseurs ne sont pas stationnaires. Les méthodes de régression habituelles peuvent alors montrer que la tendance est expliquée, alors qu'en fait elle ne l'est pas. Donc, si vous voulez expliquer la tendance, vous devez vérifier la non-stationnarité avant de continuer. Sinon, vous pourriez arriver à de fausses conclusions.
la source
Lorsque vous avez des séries de support / causal / aidant / côté droit / exogène / prédicteur, l'approche préférée est de construire une équation unique, une fonction de transfert à entrées multiples. Il faut examiner les résidus de modèle possibles pour les entrées déterministes non spécifiées / omises, c'est-à-dire faire la détection des interventions ala Ruey Tsay 1988 Journal of Forecasting et les entrées stochastiques non spécifiées via une composante ARIMA. Ainsi, vous pouvez explicitement inclure non seulement les causalités suggérées par l'utilisateur (et tous les retards nécessaires!), Mais deux types de structures omises (mannequins et ARIMA).
Il faut veiller à ce que les paramètres du modèle final ne changent pas de manière significative au fil du temps, sinon la segmentation des données pourrait être en ordre et il ne peut pas être prouvé que les résidus du modèle final présentent une variance hétérogène.
La tendance dans la série d'origine peut être due à des tendances dans la série de prédicteurs ou à une dynamique autorégressive dans la série d'intérêt ou potentiellement à une série déterministe omise indiquée par une constante d'état stable ou même une ou plusieurs tendances temporelles locales.
la source
D'un point de vue moins technique, il n'est souvent pas très utile d'expliquer la tendance; c'est-à-dire de traiter le temps comme le prédicteur d'un intérêt primaire. La variation d'une série dans le temps implique souvent les effets sous-jacents d'autres variables, y compris les processus autorégressifs et / ou exogènes, ce qui est conceptuellement plus pertinent à étudier. Il s'ensuit que si ces variables varient également dans le temps, il faut en fait contrôler l'effet du temps pour ne pas tomber dans la relation artificiellement significative comme l'a montré @mpiktas.
la source