Régression habituelle vs régression lorsque les variables sont différenciées

13

J'essaie simplement de comprendre quelle est la relation entre une régression multiple / simple normale vs une régression multiple / simple lorsque les variables sont différenciées.

Par exemple, j'analyse la relation entre le solde des dépôts ( ) et les taux du marché ( R T ) Si je lance une régression linéaire simple, la corrélation est négative et assez significative (environ -74). Cependant, si je prends la log et différence de la variable dépendante et la différence de la variable indépendante, donc mon équation est maintenant dYTRT en régression avec ddln(YT) , mes corrélations et R ^ 2 ne sont pas significatives du tout ( R 2 = .004 ).dR(T)R2=.004

Je me demandais simplement si ce faible signifiait même quelque chose? Cela signifie-t-il que mon modèle ne convient pas ou est-ce que j'ignore le R 2 lorsque je regarde des données différenciées? Je sais à partir des données qu'il existe une corrélation significative entre les deux variables d'origine, mais pour mon modèle, j'ai besoin de regarder les variables différenciées, donc je me demande simplement comment procéder.R2R2

alex
la source

Réponses:

16

La version simple est que deux variables qui ont tendance à changer dans une direction au fil du temps semblent être corrélées, qu'il y ait ou non un lien entre elles. Considérez les variables suivantes:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

est juste une fonction du temps, tout comme y 1 . y 2 est fonction à la fois du temps et de x . Il s'agit de reconnaître à partir du code qu'il existe réellement une relation entre x et y 2 , et qu'il n'y a pas de relation entre x et y 1 . Regardez maintenant la figure suivante, les trois lignes se ressemblent énormément, n'est-ce pas?xy1y2xxy2xy1

entrez la description de l'image ici

R2xy1R2xy2xy1xy2, alors comment différencier le réel de la simple apparence? C'est là que la différenciation entre en jeu. Pour deux des variables, car elles ont toutes deux tendance à augmenter avec le temps, ce n'est pas très informatif, mais étant donné que l'une augmente de façon spécifique, cela nous indique-t-il combien l'autre augmente? La différenciation nous permet de répondre à cette question. Notez les deux figures suivantes, les diagrammes de dispersion que j'ai faits après avoir différencié les trois variables.

entrez la description de l'image ici

entrez la description de l'image ici

xy2R2=.43xy1R2=.07R2

Quelques autres points: Dans les figures, je tiens à noter qu'il s'agit de changements simultanés. Il n'y a rien de mal à cela, et cela découle de la façon dont j'ai réglé le problème, mais généralement les gens sont intéressés par les effets avec un certain retard. (C'est-à-dire que le changement d'une chose à un moment donné entraîne un changement dans quelque chose d'autre plus tard.) Deuxièmement, vous mentionnez prendre le journal d'une de vos séries. La prise du journal fait simplement passer vos données des niveaux aux taux. Et donc, quand vous faites une différence, vous regardez les changements de taux plutôt que les changements de niveaux. C'est très courant, mais je n'ai pas inclus cet élément dans ma démonstration; c'est orthogonal aux questions que j'ai discutées. Enfin, je tiens à reconnaître que les données de séries chronologiques sont souvent plus compliquées que ne le laisse supposer ma démonstration.

gung - Réintégrer Monica
la source
10

@gung offre une belle réponse, mais je veux faire quelques réserves à ce que vous proposez.

La différenciation est principalement utilisée pour lutter contre le problème des racines unitaires, par exemple, lorsque le processus est AR (1) avec un coefficient de corrélation de 1. La différenciation peut être utilisée efficacement pour supprimer une tendance temporelle linéaire lorsque le terme d'erreur est le bruit blanc (dans en particulier, il ne présente aucune corrélation sérielle), comme le montre @gung ci-dessus. Mais, si le terme d'erreur a une corrélation en série avec un coefficient de corrélation inférieur à 1 en valeur absolue, l'utilisation de la différenciation pour supprimer une tendance temporelle linéaire produit des erreurs avec une structure très compliquée. Il est difficile d'obtenir des erreurs standard précises et de faire des inférences valables dans ce cas.

Par conséquent, il est préférable de tester d'abord une racine unitaire et, si elle est détectée, de la corriger via la différenciation. Ensuite, vérifiez une tendance temporelle linéaire. Résolvez ce problème en détrônant. Sans cela, vous êtes ouvert au problème de type de variables omis que @gung illustre bien.

Charlie
la source
1
+1 C'est un bon complément à ma réponse. J'ai essayé de garder ma réponse simple et intuitive. Cependant, il est certainement vrai qu'il y a plus de complexités que je n'en ai discuté et qu'elles peuvent être très importantes. J'aurais dû le reconnaître dans mon dernier paragraphe. Merci de m'avoir gardé honnête.
gung - Rétablir Monica
1

Lorsque l'objectif est de former / identifier la relation entre deux ou plusieurs séries, il peut être nécessaire de filtrer la variable X stationnaire afin de la transformer en bruit. Il s'agit d'un processus en deux étapes, la différenciation requise et la structure ARMA. Pour conserver l'objectivité et éviter le biais de spécification du modèle, il ne faut pas assumer le filtre mais plutôt construire ce filtre en utilisant la nature autocorrélative de la série X stationnaire. Ensuite, on prend la série Y et on applique tous les opérateurs de différenciation nécessaires pour la rendre stationnaire, puis on applique le filtre développé précédemment au Y stationnaire. Cette procédure a un et un seul objectif et est d'identifier la relation entre Y et X. Il ne faut jamais sauter aux conclusions sur les opérateurs de différenciation requis, le filtre ARMA et la relation entre les variables, sauf si l'on est un économétricien qui connaît le modèle avant d'observer les données ou si vous parlez directement au tout-puissant. Une analyse minutieuse de la normalité de l'exigence d'erreurs est nécessaire pour croire tout test statistique pouvant être calculé. Le calcul des tests F / tests T est nécessaire mais pas suffisant. En résumé, je vous suggère de poursuivre le sujet "Comment identifier un modèle de fonction de transfert". D'autres et moi avons abordé ce sujet à plusieurs reprises. Si vous le souhaitez, vous pouvez parcourir certaines des réponses aux questions auxquelles est associée la balise "série chronologique". Comme l'a dit Yogi "Vous pouvez observer beaucoup en lisant / regardant simplement". Parfois, des réponses agréables et simples peuvent vous induire en erreur et des réponses potentiellement trop compliquées / conservatrices comme la mienne peuvent vous obliger à développer une meilleure compréhension de la modélisation des données de séries chronologiques. Comme il a déjà été dit "Toto, nous ne sommes plus au Kansas (c'est-à-dire les données transversales)!"

IrishStat
la source