MCMC; Pouvons-nous être sûrs d'avoir un échantillon «pur» et «assez grand» de la partie postérieure? Comment cela peut-il fonctionner si nous ne le sommes pas?

En référence à ce fil: Comment expliqueriez-vous Markov Chain Monte Carlo (MCMC) à un profane? .

Je peux voir qu'il s'agit d'une combinaison de chaînes de Markov et de Monte Carlo: une chaîne de Markov est créée avec le postérieur comme distribution limite invariante, puis les tirages de Monte Carlo (dépendants) sont faits à partir de la distribution limite (= notre postérieure).

Disons (je sais que je simplifie ici) qu'après étapes nous sommes à la distribution limite (*). $L$ $\Pi$

La chaîne de Markov étant une séquence de variables aléatoires, j'obtiens une séquence , où est une variable aléatoire et est la variable aléatoire '' limite '' dont nous souhaitons goûter. $X_1, X_2, \dots , X_L, \Pi, \Pi, \Pi, \dots \Pi$ $X_i$ $\Pi$

Le MCMC part d'une valeur initiale, c'est-à-dire que est une variable aléatoire avec toute la masse à cette seule valeur . Si j'utilise des lettres majuscules pour les variables aléatoires et des lettres minuscules pour les réalisations d'une variable aléatoire, le MCCM me donne une séquence . La longueur de la chaîne MCMC est donc L + n. $X_1$ $x_1$ $x_1,x_2,x_3, \dots x_L, \pi_1, \pi_2, \pi_3, ....\pi_n$

[[* Remarque: les majuscules sont des variables aléatoires (c'est-à-dire tout un tas de résultats) et les petits sont des résultats, c'est-à-dire une valeur particulière. *]] $x$

Évidemment, seul le appartient à mon '' postérieur '' et pour approximer le '' bien '' postérieur la valeur de doit être '' assez grande ''. $\pi_i$ $n$

Si je résume ce que j'ai alors une chaîne MCMC de longueur , seuls sont pertinents pour mon approximation postérieure, et doit être suffisamment grand. $x_1,x_2,x_3, \dots x_L, \pi_1, \pi_2, \pi_3, ....\pi_n$ $N=L+n$ $\pi_1,\pi_2,\dots, \pi_n$ $n$

Si j'inclus certains des (c'est-à-dire des réalisations avant que la distribution invariante ne soit atteinte) dans le calcul de l'approximation du postérieur, alors ce sera '' bruyant ''. $x_i$

Je connais la longueur de la chaîne MCMC , mais sans connaissance du , c'est-à-dire l'étape où je suis sûr d'échantillonner à partir de la distribution limite, je ne peux pas être sûr que je n'ai pas inclus de bruit, ni assurez-vous de , la taille de mon échantillon à partir de la distribution limite, en particulier, je ne peux pas être sûr s'il est `` assez grand ''. $N=L+n$ $L$ $n=N-L$

Donc, pour autant que je sache, cette valeur de est d'une importance critique pour la qualité d'approximation du postérieur (exclusion du bruit et d'un grand échantillon de celui-ci) $L$ .

Existe-t-il des moyens de trouver une estimation raisonnable pour lorsque j'applique MCMC? $L$

(*) Je pense que, en général, dépendra de la valeur initiale . $L$ $x_1$

mcmc Communauté
la source

Réponses:

TL DR; Vous ne pouvez pas estimer puisque . Ainsi, l'hypothèse simplificatrice ne peut jamais vraiment être possible. (Il y a peut-être des cas où c'est le cas, mais pas dans le monde général des MCMC). Vous pouvez cependant décider de ce que réduira le biais précoce. $L$ $L = \infty$ $N$

Essentiellement, votre question se résume à "comment pouvons-nous estimer le temps de rodage?". Le burn-in est le fait de jeter les premiers échantillons parce que la chaîne de Markov n'a pas convergé. Il existe de nombreux diagnostics MCMC qui vous aident à estimer le temps de «rodage», vous pouvez en voir un examen ici .

Il y a deux écoles de travers en ce qui concerne le burn-in; le plus populaire consiste à utiliser l'un de ces diagnostics pour décider de ce qu'est , et jeter les échantillons , et la deuxième école à travers cela, les premiers échantillons ne devraient pas avoir d'importance, alors ne vous inquiétez pas pour eux. Charlie Geyer a une diatribe à ce sujet avec laquelle je suis d'accord. $L$ $L$ $L$

Passons maintenant aux détails plus techniques de votre question.

$L$ $L$ $L$ $\infty$ $L$

$L$ $L$

$L$ $N$ $X_1, X_2, X_3, \dots, X_N$ $L$ $L$ $\infty$ $\theta$

{\bar{θ}}_{N} = \frac{1}{N} \sum_{i = 1}^{N} X_{i} .

$\bar{\theta}_N = \dfrac{1}{N} \sum_{i=1}^{N}X_i.$

$N$ $L$

$N$ $\theta$

$(\bar{\theta}_N - \theta)$ $N \to \infty$

\sqrt{N} ({\bar{θ}}_{N} - θ) \overset{d}{\to} N_{p} (0, Σ),

$\sqrt{N}(\bar{\theta}_N - \theta) \overset{d}{\to} N_p(0, \Sigma),$

$\theta \in \mathbb{R}^p$ $\Sigma$

$\Sigma/N$

Greenparker
la source

L

$L$

\infty

$\infty$

Σ / n

$\Sigma/n$

{\hat{θ}}_{N}

$\hat{\theta}_N$

Σ / N

$\Sigma/N$

{\bar{θ}}_{N}

$\bar{\theta}_N$

X_{1} \sim π

$X_1 \sim \pi$

{\bar{g}}_{n}

$\bar{g}_n$

X_{1} \sim π

$X_1 \sim \pi$

π

$\pi$