La corrélation suppose-t-elle la stationnarité des données?

27

L'analyse inter-marchés est une méthode de modélisation du comportement des marchés par la recherche de relations entre différents marchés. Souvent, une corrélation est calculée entre deux marchés, par exemple le S&P 500 et les bons du Trésor américain à 30 ans. Ces calculs sont le plus souvent basés sur des données de prix, ce qui est évident pour tout le monde qu'il ne correspond pas à la définition de séries chronologiques stationnaires.

Les solutions possibles mises à part (en utilisant plutôt les retours), le calcul de corrélation dont les données sont non stationnaires est-il même un calcul statistique valide?

Diriez-vous qu'un tel calcul de corrélation est quelque peu peu fiable, ou tout simplement absurde?

Milktrader
la source
1
qu'entendez-vous par «calcul statistique valide», vous devriez dire calcul statistique (estimation) valide de quelque chose. Ici, quelque chose est très important. La corrélation est un calcul valide de la relation linéaire entre deux ensembles de données. Je ne vois pas pourquoi vous avez besoin de stationnarité, vouliez-vous dire l'auto-corrélation?
robin girard
2
il existe un nouveau site qui pourrait être plus adapté à votre question: quant.stackexchange.com . Maintenant, vous confondez clairement calcul et interprétation.
mpiktas
@mpiktas, la communauté quant est déterminée à utiliser les rendements par rapport aux prix en raison de la stationnarité des retours et de la non-stationnarité des prix. Je demande ici quelque chose de plus qu'une explication intuitive de la raison pour laquelle il devrait en être ainsi.
Milktrader
@robin, plusieurs éléments peuvent vous amener à remettre en question une analyse statistique. La taille de l'échantillon vient à l'esprit, tout comme les choses plus évidentes telles que les données manipulées. La non-stationnarité des données remet-elle en cause un calcul de corrélation?
Milktrader
pas le calcul, peut-être l'interprétation si la corrélation n'est pas élevée. Si elle est élevée, cela signifie une corrélation élevée (c.-à-d. Une relation linéaire élevée), deux séries chronologiques non stationnaires et peuvent être potentiellement fortement corrélées (par exemple lorsque .)(Xt)(Yt)Xt=Yt
robin girard

Réponses:

37

La corrélation mesure la relation linéaire. Dans un contexte informel, une relation signifie quelque chose de stable. Lorsque nous calculons la corrélation d'échantillon pour les variables stationnaires et augmentons le nombre de points de données disponibles, cette corrélation d'échantillon tend vers la vraie corrélation.

On peut montrer que pour les prix, qui sont généralement des marches aléatoires, la corrélation d'échantillon a tendance à varier de façon aléatoire. Cela signifie que peu importe la quantité de données dont nous disposons, le résultat sera toujours différent.

Remarque J'ai essayé d'exprimer l'intuition mathématique sans les mathématiques. D'un point de vue mathématique, l'explication est très claire: des exemples de moments de processus stationnaires convergent en probabilité en constantes. Des exemples de moments de marches aléatoires convergent vers des intégrales de mouvement brownien qui sont des variables aléatoires. Étant donné que la relation est généralement exprimée sous la forme d'un nombre et non d'une variable aléatoire, la raison du non-calcul de la corrélation pour les variables non stationnaires devient évidente.

Mise à jour Puisque nous sommes intéressés par la corrélation entre deux variables, supposons d'abord qu'elles proviennent du processus stationnaire . La stationnarité implique que et ne dépendent pas de . Donc corrélationE Z t c o v ( Z t , Z t - h ) tZt=(Xt,Yt)EZtcov(Zt,Zth)t

corr(Xt,Yt)=cov(Xt,Yt)DXtDYt

ne dépend pas non plus de , puisque toutes les quantités de la formule proviennent de la matrice , qui ne dépend pas de . Ainsi, le calcul de la corrélation de l'échantillonc o v ( Z t ) ttcov(Zt)t

ρ=corr(Xt,Yt)ρρT

ρ^=1Tt=1T(XtX¯)(YtY¯)1T2t=1T(XtX¯)2t=1T(YtY¯)2
est logique, car nous pouvons raisonnablement espérer que la corrélation d'échantillon estimera . Il s'avère que cet espoir n'est pas infondé, car pour les processus stationnaires satisfaisant à certaines conditions, nous avons que , comme en probabilité. De plus dans la distribution, afin que nous puissions tester les hypothèses sur .ρ=corr(Xt,Yt)ρ^ρTρT(ρ^ρ)N(0,σρ2)ρ

Supposons maintenant que ne soit pas stationnaire. Alors peut dépendre de . Ainsi, lorsque nous observons un échantillon de taille nous avons potentiellement besoin d'estimer différentes corrélations . Ceci est bien sûr irréalisable, donc dans le meilleur des cas, nous ne pouvons estimer que certaines fonctions de telles que la moyenne ou la variance. Mais le résultat peut ne pas avoir d'interprétation sensée. c o r r ( X t , Y t ) t T T ρ t ρ tZtcorr(Xt,Yt)tTTρtρt

Examinons maintenant ce qui se passe avec la corrélation de la marche aléatoire de processus non stationnaire probablement la plus étudiée. Nous appelons le processus une marche aléatoire si , où est un processus stationnaire. Pour simplifier, supposons que . ensuiteZ t = t s = 1 ( U t , V t ) C t = ( U t , V t ) E C t = 0Zt=(Xt,Yt)Zt=s=1t(Ut,Vt)Ct=(Ut,Vt)ECt=0

corr(XtYt)=EXtYtDXtDYt=Es=1tUts=1tVtDs=1tUtDs=1tVt

Pour simplifier davantage les choses, supposons que est un bruit blanc. Cela signifie que toutes les corrélations sont nulles pour . Notez que cela ne limite pas à zéro.E ( C t C t + h ) h > 0 c o r r ( U t , V t )Ct=(Ut,Vt)E(CtCt+h)h>0corr(Ut,Vt)

Alors

corr(Xt,Yt)=tEUtVtt2DUtDVt=corr(U0,V0).

Jusqu'ici tout va bien, bien que le processus ne soit pas stationnaire, la corrélation a du sens, même si nous avons dû faire les mêmes hypothèses restrictives.

Maintenant, pour voir ce qui arrive à la corrélation d'échantillons, nous devons utiliser le fait suivant concernant les marches aléatoires, appelé théorème de la limite centrale fonctionnelle:

s[0,1]Wdes =(W1s,W2s)Ms=(M1s,M2s)=(

1TZ[Ts]=1Tt=1[Ts]Ct(cov(C0))1/2Ws,
dans la distribution, où et est bivarié Mouvement brownien (processus de Wiener bidimensionnel). Pour plus de commodité, introduisez la définition .s[0,1]Ws=(W1s,W2s)Ms=(M1s,M2s)=(cov(C0))1/2Ws

Encore une fois pour plus de simplicité, définissons la corrélation d'échantillon comme

ρ^=1Tt=1TXtYt1Tt=1TXt21Tt=1TYt2

Commençons par les variances. On a

E1Tt=1TXt2=1TEt=1T(s=1tUt)2=1Tt=1TtσU2=σUT+12.

Cela va à l'infini lorsque augmente, nous avons donc rencontré le premier problème, la variance de l'échantillon ne converge pas. D'autre part , le théorème de cartographie continue en conjonction avec le théorème de limite centrale fonctionnelle nous donneT

T

1T2t=1TXt2=t=1T1T(1Ts=1tUt)201M1s2ds
où convergence est convergence dans la distribution, comme .T

De même, nous obtenons

1

1T2t=1TYt201M2s2ds
et
1T2t=1TXtYt01M1sM2sds

Donc, finalement, pour la corrélation de l'échantillon de notre marche aléatoire, nous obtenons

T

ρ^01M1sM2sds01M1s2ds01M2s2ds
dans la distribution en tant que . T

Ainsi, bien que la corrélation soit bien définie, la corrélation d'échantillon ne converge pas vers elle, comme dans le cas d'un processus stationnaire. Au lieu de cela, il converge vers une certaine variable aléatoire.

mpiktas
la source
1
L'explication mathématique du point de vue est ce que je cherchais. Cela me donne quelque chose à contempler et à explorer davantage. Merci.
Milktrader
1
Cette réponse semble contourner la question initiale: ne dites-vous pas simplement que oui, le calcul de la corrélation a du sens pour les processus stationnaires?
whuber
1
@whuber, je répondais à la question en gardant à l'esprit le commentaire, mais j'ai relu la question et pour autant que je sache, l'OP pose des questions sur le calcul de la corrélation pour les données non stationnaires. Le calcul de la corrélation pour les processus stationnaires est logique, toute l'analyse macroéconométrique (VAR, VECM) s'appuie sur cela.
mpiktas
Je vais essayer de clarifier ma question avec une réponse.
whuber
3
@whuber ma prise de la réponse est qu'une corrélation basée sur des données non stationnaires produit une variable aléatoire, qui peut ou non être utile. La corrélation basée sur des données stationnaires converge vers une constante. Cela peut expliquer pourquoi les commerçants sont attirés par la «corrélation glissante sur une journée» parce que le comportement corrélé est éphémère et faux. La validité ou l'utilité de la «corrélation glissante sur une journée» est une autre question.
Milktrader
13

... le calcul de corrélation dont les données sont non stationnaires est-il même un calcul statistique valable?

Soit une marche aléatoire discrète. Choisissez un nombre positif . Définissez les processus et par , si , et sinon ; et . En d'autres termes, commence identique à mais chaque fois que s'élève au-dessus de , il change de signe (sinon émulant à tous égards).h P V P ( 0 ) = 1 P ( t + 1 ) = - P ( t ) V ( t ) > h P ( t + 1 ) = P ( t ) V ( t ) = P ( t ) W ( t ) V W V h WWhPVP(0)=1P(t+1)=P(t)V(t)>hP(t+1)=P(t)V(t)=P(t)W(t)VWVhW

entrez la description de l'image ici

(Dans cette figure (pour ) est bleu et est rouge. Il y a quatre interrupteurs en signe.)W Vh=5WV

En effet, sur de courtes périodes, tendance à être parfaitement corrélé avec ou parfaitement anticorrélé avec lui; cependant, l'utilisation d'une fonction de corrélation pour décrire la relation entre et ne serait pas utile (un mot qui capture peut-être mieux le problème que «peu fiable» ou «non-sens»).W V WVWVW

Code Mathematica pour produire la figure:

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]
whuber
la source
c'est bien que votre réponse le souligne, mais je ne dirais pas que le processus est corrélé, je dirais qu'ils sont dépendants. C'est le point. Le calcul de corrélation est valide et ici il dira "pas de corrélation" et nous savons tous que cela ne signifie pas "pas de dépendance".
robin girard
1
@robin C'est un bon point, mais j'ai construit cet exemple spécifiquement pour que pendant des périodes potentiellement longues ces deux processus soient parfaitement corrélés. Le problème n'est pas celui de la dépendance par rapport à la corrélation mais est intrinsèquement lié à un phénomène plus subtil: que la relation entre les processus change à des périodes aléatoires. En résumé, c'est exactement ce qui peut se produire sur les marchés réels (ou du moins, nous devons craindre que cela se produise!).
whuber
@whubert oui, et c'est un très bon exemple montrant qu'il existe des processus qui ont une très forte corrélation pendant des périodes potentiellement longues et qui ne sont toujours pas corrélés (mais très dépendants) en ce qui concerne l'échelle temporelle plus grande.
robin girard
2
@robin girard, je pense que la clé ici est que pour les processus non stationnaires la corrélation théorique varie avec le temps, alors que pour les processus stationnaires la corrélation théorique reste la même. Ainsi, avec la corrélation d'échantillon qui est fondamentalement un nombre, il est impossible de capturer la variation des vraies corrélations en cas de processus non stationnaires.
mpiktas