La version simple est que deux variables qui ont tendance à changer dans une direction au fil du temps semblent être corrélées, qu'il y ait ou non un lien entre elles. Considérez les variables suivantes:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
est juste une fonction du temps, tout comme y 1 . y 2 est fonction à la fois du temps et de x . Il s'agit de reconnaître à partir du code qu'il existe réellement une relation entre x et y 2 , et qu'il n'y a pas de relation entre x et y 1 . Regardez maintenant la figure suivante, les trois lignes se ressemblent énormément, n'est-ce pas?xy1y2xxy2xy1
R2xy1R2xy2xy1xy2, alors comment différencier le réel de la simple apparence? C'est là que la différenciation entre en jeu. Pour deux des variables, car elles ont toutes deux tendance à augmenter avec le temps, ce n'est pas très informatif, mais étant donné que l'une augmente de façon spécifique, cela nous indique-t-il combien l'autre augmente? La différenciation nous permet de répondre à cette question. Notez les deux figures suivantes, les diagrammes de dispersion que j'ai faits après avoir différencié les trois variables.
xy2R2=.43xy1R2=.07R2
Quelques autres points: Dans les figures, je tiens à noter qu'il s'agit de changements simultanés. Il n'y a rien de mal à cela, et cela découle de la façon dont j'ai réglé le problème, mais généralement les gens sont intéressés par les effets avec un certain retard. (C'est-à-dire que le changement d'une chose à un moment donné entraîne un changement dans quelque chose d'autre plus tard.) Deuxièmement, vous mentionnez prendre le journal d'une de vos séries. La prise du journal fait simplement passer vos données des niveaux aux taux. Et donc, quand vous faites une différence, vous regardez les changements de taux plutôt que les changements de niveaux. C'est très courant, mais je n'ai pas inclus cet élément dans ma démonstration; c'est orthogonal aux questions que j'ai discutées. Enfin, je tiens à reconnaître que les données de séries chronologiques sont souvent plus compliquées que ne le laisse supposer ma démonstration.
gung - Réintégrer Monica
la source
Lorsque l'objectif est de former / identifier la relation entre deux ou plusieurs séries, il peut être nécessaire de filtrer la variable X stationnaire afin de la transformer en bruit. Il s'agit d'un processus en deux étapes, la différenciation requise et la structure ARMA. Pour conserver l'objectivité et éviter le biais de spécification du modèle, il ne faut pas assumer le filtre mais plutôt construire ce filtre en utilisant la nature autocorrélative de la série X stationnaire. Ensuite, on prend la série Y et on applique tous les opérateurs de différenciation nécessaires pour la rendre stationnaire, puis on applique le filtre développé précédemment au Y stationnaire. Cette procédure a un et un seul objectif et est d'identifier la relation entre Y et X. Il ne faut jamais sauter aux conclusions sur les opérateurs de différenciation requis, le filtre ARMA et la relation entre les variables, sauf si l'on est un économétricien qui connaît le modèle avant d'observer les données ou si vous parlez directement au tout-puissant. Une analyse minutieuse de la normalité de l'exigence d'erreurs est nécessaire pour croire tout test statistique pouvant être calculé. Le calcul des tests F / tests T est nécessaire mais pas suffisant. En résumé, je vous suggère de poursuivre le sujet "Comment identifier un modèle de fonction de transfert". D'autres et moi avons abordé ce sujet à plusieurs reprises. Si vous le souhaitez, vous pouvez parcourir certaines des réponses aux questions auxquelles est associée la balise "série chronologique". Comme l'a dit Yogi "Vous pouvez observer beaucoup en lisant / regardant simplement". Parfois, des réponses agréables et simples peuvent vous induire en erreur et des réponses potentiellement trop compliquées / conservatrices comme la mienne peuvent vous obliger à développer une meilleure compréhension de la modélisation des données de séries chronologiques. Comme il a déjà été dit "Toto, nous ne sommes plus au Kansas (c'est-à-dire les données transversales)!"
la source