Définition du temps d'autocorrélation (pour une taille d'échantillon efficace)

23

J'ai trouvé deux définitions dans la littérature pour le temps d'autocorrélation d'une série chronologique faiblement stationnaire:

τa=1+2k=1ρkversusτb=1+2k=1|ρk|

ρk=Cov[Xt,Xt+h]Var[Xt] est l'autocorrélation au décalagek.

Une application du temps d'autocorrélation est de trouver la "taille effective de l'échantillon": si vous avez n observations d'une série chronologique, et que vous connaissez son temps d'autocorrélation τ , alors vous pouvez prétendre que vous avez

neff=nτ

échantillons indépendants au lieu de échantillons ncorrélés afin de trouver la moyenne. L'estimation de τ partir des données n'est pas anodine, mais il existe plusieurs façons de le faire (voir Thompson 2010 ).

La définition sans valeurs absolues, τa , semble plus courante dans la littérature; mais il admet la possibilité de τa<1 . Utilisation de R et du package "coda":

require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000)         # white noise 
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000)    # AR(1)
effectiveSize(ts.uncorr)                             # Sanity check
    # result should be close to 10000
effectiveSize(ts.corr)
    # result is in the neighborhood of 30000... ???

La fonction "effectiveSize" dans "coda" utilise une définition du temps d'autocorrélation équivalente à τa , ci-dessus. Il existe d'autres packages R qui calculent la taille effective de l'échantillon ou le temps d'autocorrélation, et tous ceux que j'ai essayés donnent des résultats cohérents avec ceci: qu'un processus AR (1) avec un coefficient AR négatif a des échantillons plus efficaces que les corrélés des séries chronologiques. Cela semble étrange.

Évidemment, cela ne peut jamais se produire dans la définition τb du temps d'autocorrélation.

Quelle est la définition correcte du temps d'autocorrélation? Y a-t-il un problème avec ma compréhension des tailles d'échantillons efficaces? Le résultat indiqué ci-dessus semble être incorrect ... que se passe-t-il?neff>n

andrewtinka
la source
Juste pour m'assurer que je n'ai pas mal compris, n'est-ce pas censé être au lieu du h ? Cov(Xt,Xt+k)h
sachinruk
2
Je m'intéresse à la deuxième définition, à savoir, . Pourriez-vous fournir la documentation là où vous l'avez trouvée? τb
Harry

Réponses:

17

X1,X2,μ

μ^=1nk=1nXk
μn1μ^
1n2k,l=1ncov(Xk,Xl)=1n(1+2(n1nρ1+n2nρ2++1nρn1))τan.
nneff=n/τaneff1neffneff=n/τa

n1neff>n

NRH
la source
2
Pour tous ceux qui veulent en savoir plus sur l'utilisation de la corrélation négative dans la simulation de Monte Carlo, essayez de googler sur les "variables antithétiques". Plus d'informations dans les notes de cours ici ou ici .
andrewtinka
1

voir http://arxiv.org/pdf/1403.5536v1.pdf

et

https://cran.r-project.org/web/packages/mcmcse/mcmcse.pdf

pour une taille d'échantillon efficace. Je pense que la formulation alternative utilisant le rapport de la variance de l'échantillon et la variance asymptotique de la chaîne de Markov via la moyenne du lot est un estimateur plus approprié.

subhadip pal
la source
4
Pourriez-vous développer le contenu de ces liens? À l'heure actuelle, cela est trop court pour une réponse selon nos normes!
kjetil b halvorsen