MCMC; Pouvons-nous être sûrs d'avoir un échantillon «pur» et «assez grand» de la partie postérieure? Comment cela peut-il fonctionner si nous ne le sommes pas?

12

En référence à ce fil: Comment expliqueriez-vous Markov Chain Monte Carlo (MCMC) à un profane? .

Je peux voir qu'il s'agit d'une combinaison de chaînes de Markov et de Monte Carlo: une chaîne de Markov est créée avec le postérieur comme distribution limite invariante, puis les tirages de Monte Carlo (dépendants) sont faits à partir de la distribution limite (= notre postérieure).

Disons (je sais que je simplifie ici) qu'après étapes nous sommes à la distribution limite Π (*).LΠ

La chaîne de Markov étant une séquence de variables aléatoires, j'obtiens une séquence , où X i est une variable aléatoire et Π est la variable aléatoire '' limite '' dont nous souhaitons goûter. X1,X2,,XL,Π,Π,Π,ΠXiΠ

Le MCMC part d'une valeur initiale, c'est-à-dire que est une variable aléatoire avec toute la masse à cette seule valeur x 1 . Si j'utilise des lettres majuscules pour les variables aléatoires et des lettres minuscules pour les réalisations d'une variable aléatoire, le MCCM me donne une séquence x 1 , x 2 , x 3 , ... x L , π 1 , π 2 , π 3 , . . . . π n . La longueur de la chaîne MCMC est donc L + n.X1x1x1,x2,x3,xL,π1,π2,π3,....πn

[[* Remarque: les majuscules sont des variables aléatoires (c'est-à-dire tout un tas de résultats) et les petits sont des résultats, c'est-à-dire une valeur particulière. *]]x

Évidemment, seul le appartient à mon '' postérieur '' et pour approximer le '' bien '' postérieur la valeur de n doit être '' assez grande ''.πin

Si je résume ce que j'ai alors une chaîne MCMC de longueur N = L + n , seuls π 1 , π 2 , , π n sont pertinents pour mon approximation postérieure, et n doit être suffisamment grand.x1,x2,x3,xL,π1,π2,π3,....πnN=L+nπ1,π2,,πnn

Si j'inclus certains des (c'est-à-dire des réalisations avant que la distribution invariante ne soit atteinte) dans le calcul de l'approximation du postérieur, alors ce sera '' bruyant ''.xi

Je connais la longueur de la chaîne MCMC , mais sans connaissance du L , c'est-à-dire l'étape où je suis sûr d'échantillonner à partir de la distribution limite, je ne peux pas être sûr que je n'ai pas inclus de bruit, ni assurez-vous de n = N - L , la taille de mon échantillon à partir de la distribution limite, en particulier, je ne peux pas être sûr s'il est `` assez grand ''. N=L+nLn=NL

Donc, pour autant que je sache, cette valeur de est d'une importance critique pour la qualité d'approximation du postérieur (exclusion du bruit et d'un grand échantillon de celui-ci)L .

Existe-t-il des moyens de trouver une estimation raisonnable pour lorsque j'applique MCMC?L

(*) Je pense que, en général, dépendra de la valeur initiale x 1 .Lx1

Communauté
la source

Réponses:

6

TL DR; Vous ne pouvez pas estimer puisque L = . Ainsi, l'hypothèse simplificatrice ne peut jamais vraiment être possible. (Il y a peut-être des cas où c'est le cas, mais pas dans le monde général des MCMC). Vous pouvez cependant décider de ce que N réduira le biais précoce.LL=N


Essentiellement, votre question se résume à "comment pouvons-nous estimer le temps de rodage?". Le burn-in est le fait de jeter les premiers échantillons parce que la chaîne de Markov n'a pas convergé. Il existe de nombreux diagnostics MCMC qui vous aident à estimer le temps de «rodage», vous pouvez en voir un examen ici .

Il y a deux écoles de travers en ce qui concerne le burn-in; le plus populaire consiste à utiliser l'un de ces diagnostics pour décider de ce qu'est , et jeter les échantillons L , et la deuxième école à travers cela, les premiers échantillons L ne devraient pas avoir d'importance, alors ne vous inquiétez pas pour eux. Charlie Geyer a une diatribe à ce sujet avec laquelle je suis d'accord.LLL

Passons maintenant aux détails plus techniques de votre question.

LLLL

LL

LNX1,X2,X3,,XNLLθ

θ¯N=1Ni=1NXi.

NL

Nθ

(θ¯Nθ)N

N(θ¯Nθ)dNp(0,Σ),

θRpΣ

Σ/N

Greenparker
la source
LΣ/nθ^N
Σ/Nθ¯N
X1πg¯n
X1ππ