Le mythe de la prévisibilité à long terme

8

J'ai récemment découvert un article fascinant sur la prévision des rendements futurs du marché boursier. L'auteur présente le graphique ci-dessous et cite un R ^ 2 de 0,913. Cela rendrait la méthode de l'auteur bien supérieure à tout ce que j'ai jamais vu sur le sujet (la plupart soutiennent que le marché boursier est imprévisible).

L'auteur décrit sa méthode en détail et fournit une théorie substantielle pour étayer les résultats. J'ai ensuite lu un deuxième article critique critiquant cet article: Le mythe de la prévisibilité à long terme . Apparemment, les gens tombent amoureux de cette illusion depuis des décennies. Malheureusement, je ne comprends pas vraiment le document.

Cela m'amène aux questions suivantes:

La fausse confiance des prévisions à long terme est-elle due à l'utilisation du même ensemble de données pour la formation et la validation du modèle? Le problème disparaîtrait-il si les données de formation et de validation étaient extraites de périodes distinctes qui ne se chevauchent pas?
En plus de valider sur l'ensemble de formation, pourquoi ce problème devient-il plus prononcé sur des horizons plus longs?
En général, comment puis-je surmonter ce problème lors de la formation de modèles qui doivent faire des prédictions à long terme?

machine-learning time-series forecasting predictive-models Ryan Zotti
la source

1

Je ne sais pas si vous êtes tombé sur ce fil sur CV, où j'ai référencé quelques articles sur ce sujet. stats.stackexchange.com/questions/294489/…

horaceT

4

Je pense qu'une réponse simple est que l'on ne veut pas mesurer R ^ 2 à l'échelle originale de la série temporelle. Si une prévision est purement une copie de la dernière valeur de série temporelle vue, le R ^ 2 serait énorme. Exemple:

Cela pourrait être appelé un faux cas. J'obtiens la valeur 0,96, alors que cette prévision est totalement foutue.

R ^ 2 va donner une valeur honnête s'il a été mesuré à l'aide de timeseires stationnaires, par exemple, les premières différences de y et y-chapeau.

Alexey Burnakov
la source

1

Le problème ne se pose pas car nous utilisons le même ensemble de données pour la formation et la validation. Elle survient en raison de l'effet de la persistance des variables sur les erreurs d'échantillonnage grossissantes et les petits effets à des horizons temporels plus longs. Comme indiqué dans l'article, même si vous ne pouvez pas prédire les rendements futurs du marché boursier à partir de votre variable d'intérêt, nous prévoyons $R^2$ ainsi que les coefficients de régression à peu près proportionnels à l'horizon temporel si les variables sont persistantes. En effet (p. 1584):

a) tout tirage inhabituel des déclarations au moment $t$ influencera les rendements pour $k$ périodes, où $k$ est l'horizon temporel.

b) un régresseur persistant aura des valeurs très similaires pour $t$ , $t-1$ , $t-2$ , .., $t-k$

et donc "L'impact du tirage inhabituel sera à peu près $k$ fois plus grande dans la régression à long horizon que dans la régression à une période. "Dans l'article lié citant le très haut $R^2$ , l'horizon temporel est de dix ans, les données sont disponibles tous les trimestres, donc un horizon temporel de 10 ans (horizon temporel $k = 40$ ) l'inflation $R^2$ sera probablement très important.

Chris Novak
la source

Le mythe de la prévisibilité à long terme

Réponses: