Y a-t-il une différence entre une série chronologique autocorrélée et des erreurs autocorrélées en série?

Je suis sûr que je manque quelque chose d'évident ici, mais je suis plutôt confus avec des termes différents dans le domaine des séries chronologiques. Si je comprends bien, les erreurs autocorrélées en série sont un problème dans les modèles de régression (voir par exemple ici ). Ma question est maintenant ce qui définit exactement une erreur autocorrélée? Je connais la définition de l'autocorrélation et je peux appliquer les formules, mais c'est plus un problème de compréhension avec les séries temporelles dans les régressions.

Par exemple, prenons la série chronologique des températures quotidiennes: S'il fait chaud aujourd'hui (heure d'été!), Il fait probablement aussi chaud demain, et vice versa. Je suppose que j'ai un problème pour appeler ce phénomène un phénomène "d'erreurs autocorrélées en série" parce qu'il ne me semble pas simplement comme une erreur, mais comme quelque chose attendu.

Plus formellement, supposons une configuration de régression avec une variable dépendante $y_t$ et une variable indépendante $x_t$ et le modèle.

y_{t} = α + β x_{t} + ϵ_{t}

$y_t = \alpha + \beta x_t + \epsilon_t$

Est-il possible que $x_t$ est autocorrélé, tandis que $\epsilon_t$ est iid? Si oui, qu'est-ce que cela signifie pour toutes ces méthodes qui ajustent les erreurs standard pour l'autocorrélation? Devez-vous toujours le faire ou ne s'appliquent-ils qu'aux erreurs autocorrélées? Ou voudriez-vous toujours modéliser l'autocorrélation dans un tel paramètre dans le terme d'erreur, donc cela ne fait fondamentalement aucune différence si $x_t$ est autocorrélé ou $e_t$ ?

Ceci est ma première question ici. J'espère que ce n'est pas trop déroutant et j'espère que je n'ai rien manqué d'évident ... J'ai également essayé de le chercher sur Google et j'ai trouvé des liens intéressants (par exemple, ici sur SA ), mais rien ne m'a vraiment aidé.

time-series autocorrelation Christoph_J
la source

Réponses:

Il me semble que vous vous bloquez sur la différence entre l'autorégression (la température d'aujourd'hui est influencée par la température d'hier, ou ma consommation d'héroïne aujourd'hui dépend de ma consommation de drogue précédente) et les erreurs autocorrélées (qui ont à voir avec la diagonale termes en termes de variance-covariance pour $\epsilon$ étant différent de zéro. Pour en rester à votre exemple météorologique, supposons que vous modélisez la température en fonction du temps, mais elle est également influencée par des éléments comme les éruptions volcaniques, que vous avez omis de votre modèle. Le volcan envoie des nuages de poussière qui bloquent le soleil et abaissent la température. Cette perturbation aléatoire persistera sur plus d'une période. Cela rendra votre tendance temporelle moins raide qu'elle ne devrait l'être. Pour être honnête, il est probable que les erreurs d'autorégression et d'autocorrélation soient un problème de température.

Des erreurs autocorrélées peuvent également survenir dans les données spatiales transversales, où un choc aléatoire qui affecte l'activité économique dans une région se répercutera sur d'autres zones en raison de leurs liens économiques. Un choc qui tue les raisins en Californie entraînera également une baisse des ventes de bœuf du Montana. Vous pouvez également induire des perturbations autocorrélées si vous omettez une variable indépendante pertinente et autocorrélée de votre modèle de série chronologique.

Dimitriy V. Masterov
la source

Merci beaucoup, Dimitriy. Vous avez bien compris: je me suis trompé sur la différence entre l'autorégression et les erreurs autocorrélées. Pour être sûr, cependant: dans mon exemple, je modéliserais

x_{t}

$x_t$ comme une série chronologique autorégressive (en faisant abstraction des éruptions volcaniques, etc.) en raison des périodes estivales et hivernales, sans avoir à gérer les erreurs autocorrélées?

Christoph_J

@Christoph_J Idéalement, vous voulez régresser contre un ou plusieurs décalages temporels pour le modèle saisonnier et l'activité volcanique. Si, à la place, nous ignorions la cause des erreurs autocorrélées, un modèle de moyenne mobile peut aider. Dans ce cas, ce serait un modèle ARIMA.

Robert Kubrick

@Christoph_J Je ne suis pas sûr de comprendre votre question. Vouliez-vous écrire

y_{t}

$y_{t}$ au dessus de? Vous devriez également nous en dire plus sur le problème réel que vous traitez. Mon exemple de température n'était qu'un modèle de jouet pour mettre en évidence les problèmes. Il existe plusieurs solutions pour traiter la RA, la plus simple étant la spécification de décalage distribué de Koyck, qui se résume à l'estimation d'une équation simple avec un

M A (1)

$MA(1)$ terme d'erreur. Cependant, vous devez toujours effectuer une sorte de test d'autocorrélation, comme le Durbin-Watson, bien que cela puisse vous donner un faux positif si vous n'obtenez pas la bonne spécification.

Dimitriy V. Masterov

Merci à vous deux. @ DimitriyV.Masterov À ce stade, je n'ai pas de problème réel. C'est la raison pour laquelle j'ai essayé de formuler mon problème de la manière la plus générale possible. Je pense que j'ai juste du mal avec les séries chronologiques d'une part et les régressions d'autre part. Parfois, ils semblent être deux problèmes complètement différents; si je comprends bien, il y a des cas où vous essayez simplement de modéliser une série chronologique (combien de retards at-elle? est-elle stationnaire? etc.). À l'autre extrême, il semble parfois que vous régressiez simplement une série chronologique sur l'autre, sans faire très attention au fait qu'il s'agit d'un TS.

Christoph_J

Et j'ai parfois quelques problèmes, quelle est la meilleure façon d'aller de l'avant: dois-je d'abord modéliser le processus autorégressif ou puis-je simplement corriger l'autocorrélation dans les termes d'erreur? Cependant, en ce qui concerne ma question, votre réponse et celle de Robert ont beaucoup aidé et je pense que dans mon domaine (les modèles factoriels en finance) devraient traiter des erreurs autocorrélées en série, pas de l'autorégression. Si une autre question se pose, je poserais une nouvelle question.

Christoph_J

Juste pour ajouter à Dimitriy une très bonne réponse: l'autocorrélation d'erreur pose des problèmes pour le calcul de l'erreur standard des coefficients et donc des niveaux de signification, ou valeur p, ce qui rend la sélection des IV moins simple. $R^2$ et la valeur F sont également affectées.

De toutes les hypothèses de régression linéaire (homoscédasticité, indépendance des résidus, linéarité de la relation IVs -> DV, normalité des résidus) la linéarité et l'indépendance des résidus sont celles qui impactent les résultats plus sérieusement en cas de violation.

Robert Kubrick
la source