Quel est le problème avec l'autocorrélation?

13

Pour commencer, j'ai une formation mathématique assez approfondie, mais je n'ai jamais vraiment traité de séries chronologiques ou de modélisation statistique. Vous n'avez donc pas besoin d'être très gentil avec moi :)

Je lis cet article sur la modélisation de la consommation d'énergie dans les bâtiments commerciaux, et l'auteur fait cette affirmation:

[La présence d'une autocorrélation se produit] parce que le modèle a été développé à partir de données de séries chronologiques sur l'utilisation d'énergie, qui sont intrinsèquement autocorrélées. Tout modèle purement déterministe pour les données de séries chronologiques aura une autocorrélation. On constate que l'autocorrélation diminue si [plus de coefficients de Fourier] sont inclus dans le modèle. Cependant, dans la plupart des cas, le modèle de Fourier a un CV faible. Le modèle peut donc être acceptable à des fins pratiques qui (sic) ne nécessitent pas une grande précision.

0.) Que signifie «tout modèle purement déterministe pour les données de séries chronologiques aura une autocorrélation»? Je peux vaguement comprendre ce que cela signifie - par exemple, comment vous attendriez-vous à prédire le prochain point de votre série chronologique si vous n'aviez aucune autocorrélation? Ce n'est pas un argument mathématique, c'est sûr, c'est pourquoi c'est 0 :)

1.) J'avais l'impression que l'autocorrélation a essentiellement tué votre modèle, mais en y réfléchissant, je ne comprends pas pourquoi cela devrait être le cas. Alors pourquoi l'autocorrélation est-elle une mauvaise (ou une bonne) chose?

2.) La solution que j'ai entendu pour traiter l'autocorrélation est de différencier les séries chronologiques. Sans chercher à lire l'esprit de l'auteur, pourquoi ne ferait-on pas de différence s'il existe une autocorrélation non négligeable?

3.) Quelles limites les autocorrélations non négligeables imposent-elles à un modèle? Est-ce une hypothèse quelque part (c.-à-d. Résidus résiduels normalement distribués lors de la modélisation avec une régression linéaire simple)?

Quoi qu'il en soit, désolé si ce sont des questions de base, et merci d'avance pour votre aide.

BenDundee
la source

Réponses:

10
  1. Je pense que l'auteur parle probablement des résidus du modèle. Je dis cela en raison de sa déclaration sur l'ajout de coefficients de Fourier supplémentaires; si, comme je le crois, il ajuste un modèle de Fourier, alors l'ajout de coefficients réduira l'autocorrélation des résidus au détriment d'un CV plus élevé.

    Si vous avez du mal à visualiser cela, pensez à l'exemple suivant: supposons que vous ayez l'ensemble de données de 100 points suivant, qui provient d'un modèle de Fourier à deux coefficients avec du bruit gaussien blanc ajouté:

    Points de données

    Le graphique suivant montre deux ajustements: l'un fait avec 2 coefficients de Fourier et l'autre fait avec 200 coefficients de Fourier:

    S'adapte

    Comme vous pouvez le voir, les 200 coefficients de Fourier correspondent mieux aux DATAPOINTS, tandis que l'ajustement à 2 coefficients (le «vrai» modèle) correspond mieux au MODÈLE. Cela implique que l'autocorrélation des résidus du modèle à 200 coefficients sera presque sûrement plus proche de zéro à tous les décalages que les résidus du modèle à 2 coefficients, car le modèle à 200 coefficients s'adapte exactement à presque tous les points de données (c'est-à-dire que les résidus être presque tous des zéros). Cependant, que pensez-vous qu'il se passera si vous laissez, disons, 10 points de données hors de l'échantillon et que vous adaptez les mêmes modèles? Le modèle à 2 coefficients prédira mieux les points de données que vous avez quittés de l'échantillon! Ainsi, il produira une erreur de CV plus faible que sur le modèle à 200 coefficients; c'est ce qu'on appelle le sur- ajustement. La raison derrière cette «magie» est que ce que CV essaie réellement de mesurer est une erreur de prédiction , c'est-à-dire la façon dont votre modèle prédit les points de données qui ne se trouvent pas dans votre ensemble de données.

  2. Dans ce contexte, l'autocorrélation sur les résidus est «mauvaise», car cela signifie que vous ne modélisez pas suffisamment la corrélation entre les points de données. La raison principale pour laquelle les gens ne font pas de différence dans la série est qu'ils veulent réellement modéliser le processus sous-jacent tel qu'il est. On différencie généralement les séries chronologiques pour se débarrasser des périodicités ou des tendances, mais si cette périodicité ou tendance est en fait ce que vous essayez de modéliser, alors les différencier peut sembler être une option de dernier recours (ou une option afin de modéliser les résidus avec un processus stochastique plus complexe).
  3. Cela dépend vraiment de la zone sur laquelle vous travaillez. Cela pourrait également être un problème avec le modèle déterministe. Cependant, selon la forme de l'autocorrélation, il est facile de voir quand l'autocorrélation se produit en raison, par exemple, d'un bruit de scintillement, d'un bruit de type ARMA ou s'il s'agit d'une source périodique sous-jacente résiduelle (auquel cas vous voudrez peut-être augmenter le nombre de coefficients de Fourier).
Néstor
la source
Merci pour votre réponse, et si vous le souhaitez, j'aimerais essayer de les digérer un par un. Pour 1.), existe-t-il un moyen intuitif de comprendre pourquoi l'inclusion de plus de coefficients de Fourier réduit l'autocorrélation et augmente le CV (je suppose que c'est le CV des résidus)?
BenDundee
1
J'ai ajouté un exemple. J'espère que cela aide. Et oui, il se réfère au CV des résidus.
Néstor
Ahh ok, je pense que je vois. Cela rejoint ce que j'allais demander en ce qui concerne 2. Comment pourrait-on procéder pour corriger ce modèle (génériquement) pour mieux comprendre la corrélation? Pourriez-vous ajouter une contrainte sur la matrice de corrélation des coefficients de Fourier?
BenDundee
1
C'est une tâche difficile à laquelle je suis également confronté. Surtout avec les modèles déterministes périodiques, il devient vraiment difficile de savoir quel type de modèle de bruit utiliser. Le gros problème est que vous ne connaissez pas a priori le nombre de coefficients du modèle de Fourier, ce sont donc des variables aléatoires que vous devez modéliser également. En présence d'un faible nombre de points de données, j'opterais définitivement pour un saut réversible MCMC afin de modéliser cela. J'essaierais différents modèles de bruit et comparerais l'AIC / BIC entre eux. Pour les grands ensembles de données, cependant, cela est impossible.
Néstor
3

J'ai trouvé ce papier ' Régulations parasites en économétrie » utile lorsque j'essayais de comprendre pourquoi l'élimination des tendances est nécessaire. Essentiellement, si deux variables ont tendance, elles co-varieront, ce qui est une recette pour des problèmes.

conjectures
la source