Pourquoi mes modèles VAR fonctionnent-ils mieux avec des données non stationnaires qu'avec des données stationnaires?

9

J'utilise la bibliothèque VAR de modèles de statistiques de python pour modéliser les données de séries temporelles financières et certains résultats m'ont laissé perplexe. Je sais que les modèles VAR supposent que les données des séries chronologiques sont stationnaires. J'ai ajusté par inadvertance une série non stationnaire de prix de log pour deux titres différents et, de façon surprenante, les valeurs ajustées et les prévisions dans l'échantillon étaient très précises avec des résidus stationnaires relativement insignifiants. Le sur la prévision dans l'échantillon était de 99% et l'écart type de la série résiduelle prévue était d'environ 10% des valeurs prévues.R2

Cependant, lorsque je fais la différence entre les prix des journaux et que j'adapte cette série chronologique au modèle VAR, les valeurs ajustées et prévues sont loin de la cible, rebondissant dans une fourchette étroite autour de la moyenne. Par conséquent, les résidus font un meilleur travail en prévoyant les rendements logarithmiques que les valeurs ajustées, avec l'écart-type des résidus prévus 15X plus grand que la série de données ajustée une valeur de .007 pour la série de prévisions.R2

Suis-je en train d'interpréter les ajustements par rapport aux résidus sur le modèle VAR ou de faire une autre erreur? Pourquoi une série chronologique non stationnaire entraînerait-elle des prévisions plus précises qu'une stationnaire basée sur les mêmes données sous-jacentes? J'ai beaucoup travaillé avec les modèles ARMA de la même bibliothèque python et je n'ai rien vu de tel que la modélisation de données d'une seule série.

jpeginternet
la source
5
Deux faits: (1) Lorsque vous régressez une marche aléatoire sur une autre marche aléatoire et présumez à tort la stationnarité, vous obtenez presque toujours des résultats hautement statistiquement significatifs, même si ce sont des processus indépendants! . (2) Si deux variables sont cointégrées , vous pouvez régresser l'une sur l'autre et votre estimateur convergera plus rapidement que la régression habituelle, un résultat appelé super-cohérence.
Matthew Gunn
Merci beaucoup. Le fait n ° 1 explique sûrement les résultats de la série non stationnaire. Les résultats de la série stationnaire agissent certainement comme s'ils montraient ce que vous appelez la super-cohérence, sauf que les deux séries ne sont pas cointégrées, pour autant que je sache. J'ai effectué une régression linéaire sur les deux séries de prix et les résidus étaient loin d'être stationnaires. Je devrais donc supposer alors que le modèle VAR prévoit si mal parce que les deux séries de retours ne sont pas fortement auto-corrélées. Le test de Granger le confirme également.
jpeginternet
@MatthewGunn, votre commentaire pourrait mieux correspondre à une réponse.
Richard Hardy

Réponses:

9

Deux faits:

  1. Lorsque vous régressez une marche aléatoire sur une autre marche aléatoire et supposez à tort la stationnarité, votre logiciel crachera généralement des résultats statistiquement significatifs, même s'il s'agit de processus indépendants! Par exemple, consultez ces notes de cours. (Google pour une marche aléatoire parasite et de nombreux liens apparaîtra.) Qu'est-ce qui ne va pas? L'estimation OLS et les erreurs-types habituelles sont basées sur des hypothèses qui ne sont pas vraies dans le cas de marches aléatoires.

    Prétendre que les hypothèses OLS habituelles s'appliquent et régresser deux marches aléatoires indépendantes l'une sur l'autre conduira généralement à des régressions avec un énorme , des coefficients hautement significatifs, et tout cela est entièrement faux! Quand il y a une marche aléatoire et que vous exécutez une régression dans les niveaux, les hypothèses habituelles pour OLS sont violées, votre estimation ne converge pas en tant que , le théorème de la limite centrale habituelle ne s'applique pas, et les statistiques t et les valeurs p votre régression crache sont toutes fausses .R2t

  2. Si deux variables sont cointégrées , vous pouvez régresser l'une sur l'autre et votre estimateur convergera plus rapidement que la régression habituelle, un résultat appelé super-cohérence. Par exemple. consultez le livre en ligne de la série chronologique de John Cochrane et recherchez «supercohérent».

Matthew Gunn
la source