Stan

Je parcourais la documentation de Stan qui peut être téléchargée ici . J'étais particulièrement intéressé par leur implémentation du diagnostic Gelman-Rubin. Le document original Gelman & Rubin (1992) définit le facteur de réduction d'échelle potentiel (PSRF) comme suit:

Soit $X_{i,1}, \dots , X_{i,N}$ la $i$ ème chaîne de Markov échantillonnée, et qu'il y ait globalement $M$ chaînes indépendantes échantillonnées. Soit $\bar{X}_{i\cdot}$ la moyenne de la $i$ ème chaîne, et $\bar{X}_{\cdot \cdot}$ la moyenne globale. Définissez,

W = \frac{1}{M} \sum_{m = 1}^{M} s_{m}^{2},

$W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m},$ où

s_{m}^{2} = \frac{1}{N - 1} \sum_{t = 1}^{N} ({\bar{X}}_{m t} - {\bar{X}}_{m \cdot})^{2} .

$s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,.$ Et définissez

B

$B$

B = \frac{N}{M - 1} \sum_{m = 1}^{M} ({\bar{X}}_{m \cdot} - {\bar{X}}_{\cdot \cdot})^{2} .

$B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,.$

Définir Le PSRF est estimé avec

\hat{V} = (\frac{N - 1}{N}) W + (\frac{M + 1}{M N}) B .

$\hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B\,.$

où

\sqrt{\hat{R}}

$\sqrt{\hat{R}}$

Où

\hat{R} = \frac{\hat{V}}{W} \cdot \frac{d f + 3}{d f + 1},

$\hat{R} = \dfrac{\hat{V}}{W} \cdot \dfrac{df+3}{df+1}\,,$

d f = 2 \hat{V} / V a r (\hat{V})

$df = 2\hat{V}/Var(\hat{V})$

La documentation de Stan à la page 349 ignore le terme avec et supprime également le terme multiplicatif Voici leur formule, $df$ $(M+1)/M$

L'estimateur de variance est Enfin, la statistique potentiel de réduction d'échelle est définie par
${\hat{var}}^{+} (θ | y) = \frac{N - 1}{N} W + \frac{1}{N} B .$ $\widehat{\text{var}}^{+}(\theta \, | \, y) = \frac{N-1}{N} W + \frac{1}{N} B\,.$ $\hat{R} = \sqrt{\frac{{\hat{var}}^{+} (θ | y)}{W}} .$ $\hat{R} = \sqrt{\frac{\widehat{\text{var}}^{+}(\theta \, | \, y) }{W}}\,.$

D'après ce que j'ai pu voir, ils ne fournissent pas de référence pour ce changement de formule, et ils n'en discutent pas non plus. Habituellement, n'est pas trop grand et peut souvent être aussi bas que , donc ne doit pas être ignoré, même si le terme peut être approximé par 1. $M$ $2$ $(M+1)/M$ $df$

D'où vient donc cette formule?

EDIT: J'ai trouvé une réponse partielle à la question "d' où vient cette formule? ", Dans la mesure où le livre Bayesian Data Analysis de Gelman, Carlin, Stern et Rubin (deuxième édition) a exactement la même formule. Cependant, le livre n'explique pas comment / pourquoi il est justifié d'ignorer ces termes?

mcmc convergence gibbs metropolis-hastings stan Greenparker
la source

Il n'y a pas encore de document publié à ce sujet, et la formule changera probablement dans les prochains mois de toute façon.

Ben Goodrich

@BenGoodrich Merci pour le commentaire. Pouvez-vous nous en dire plus sur la motivation de l'utilisation de cette formule? Et pourquoi exactement la formule va-t-elle changer?

Greenparker

La formule actuelle du R-hat split est la façon dont il s'agit principalement de l'appliquer au cas où il n'y a qu'une seule chaîne. Les changements à venir concernent principalement le fait que la distribution postérieure marginale sous-jacente peut ne pas être normale ou avoir une moyenne et / ou une variance.

Ben Goodrich

@BenGoodrich Oui, je comprends pourquoi STAN divise Rhat. Mais même dans ce cas,

, et donc la constante

M = 2

$M = 2$

qui est non ignorable.

(M + 1) / M = 3 / 2

$(M+1)/M = 3/2$

Greenparker

Réponses:

J'ai suivi le lien spécifique donné pour Gelman et Rubin (1992) et il a comme dans les versions ultérieures, bien que remplacé par

\hat{σ} = \frac{n - 1}{n} W + \frac{1}{n} B

$\hat{\sigma} = \frac{n-1}{n}W+ \frac{1}{n}B$

\hat{σ}

$\hat{\sigma}$

Brooks & Gelman (1998) et

dans BDA2 (Gelman et al, 2003) et BDA3 (Gelman et al, 2013).

{\hat{σ}}_{+}

$\hat{\sigma}_+$

{\hat{v a r}}^{+}

$\widehat{\rm var}^+$

BDA2 et BDA3 (impossible de vérifier maintenant BDA1) ont un exercice avec des indices pour montrer que est une estimation non biaisée de la quantité souhaitée. $\widehat{\rm var}^+$

Gelman & Brooks (1998) a pour équation 1.1 qui peut être réarrangée comme

\hat{R} = \frac{m + 1}{m} \frac{{\hat{σ}}_{+}}{W} - \frac{n - 1}{m n},

$\hat{R} = \frac{m+1}{m}\frac{\hat{\sigma}_+}{W} - \frac{n-1}{mn},$

Nous pouvons voir que les effets des deuxième et troisième termes sont négligeables pour la prise de décision lorsque

est grand. Voir également la discussion dans le paragraphe précédant la section 3.1 dans Brooks & Gelman (1998).

\hat{R} = \frac{{\hat{σ}}_{+}}{W} + \frac{{\hat{σ}}_{+}}{W m} - \frac{n - 1}{m n} .

$\hat{R} = \frac{\hat{\sigma}_+}{W} + \frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}.$

n

$n$

Gelman et Rubin (1992) avaient également le terme avec df comme df / (df-2). Brooks et Gelman (1998) ont une section décrivant pourquoi cette correction de df est incorrecte et définissent (df + 3) / (df + 1). Le paragraphe précédant la section 3.1 de Brooks & Gelman (1998) explique pourquoi (d + 3) / (d + 1) peuvent être supprimés.

Il semble que votre source pour les équations soit postérieure à Brooks & Gelman (1998) comme vous en aviez (d + 3) / (d + 1) et Gelman & Rubin (1992) avaient df / df (-2). Sinon, Gelman et Rubin (1992) et Brooks et Gelman (1998) ont des équations équivalentes (avec des notations légèrement différentes et certains termes sont disposés différemment). BDA2 (Gelman, et al., 2003) n'a plus de termes $\frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}$

$\hat{R}$ $n$ $m$

Habituellement, M n'est pas trop grand et peut souvent être aussi bas que 2

J'espère vraiment que ce n'est pas souvent le cas. Dans les cas où vous souhaitez utiliser split- $\hat{R}$

Référence supplémentaire:

Brooks et Gelman (1998). Journal of Computational and Graphical Statistics, 7 (4) 434-455.

Aki Vehtari
la source

{\hat{σ}}^{2}

$\hat{\sigma}^2$

\hat{R}

$\hat{R}$

({\hat{σ}}^{2} + B / m n) / W * d f_{t e r m}

$(\hat{\sigma}^2 + B/mn)/W * df_{term}$

(m + 1) / m

$(m+1)/m$

Greenparker

Je suis confus. L'article via le lien que vous avez fourni et l'article des pages Web de Stat Science ne contiennent que les pages 457-472.Je n'ai pas vérifié maintenant, mais il y a des années et l'année dernière lorsque j'ai vérifié la coda, il n'avait pas la version actuelle recommandée.

Aki Vehtari

Notez que j'ai modifié ma réponse. Gelman et Brooks (1998) ont ce terme (m + 1) / m plus clairement, et il semble que vous ayez manqué le dernier terme qui annule principalement l'effet de (m + 1) / m terme pour la prise de décision. Voir ce paragraphe avant la section 3.1.

Aki Vehtari

Désolé, c'était une faute de frappe. C'est la page 465, et Gelman et Rubin ont la même définition exacte que Brooks et Gelman (que vous indiquez ci-dessus). L'équation 1.1 de Brooks et Gelman est exactement ce que j'ai également écrit (lorsque vous réorganisez certains termes).

Greenparker

"Nous pouvons voir que l'effet des deuxième et troisième termes est négligeable pour la prise de décision lorsque n est grand", donc ce que vous dites est que l'expression dans BDA et donc STAN vient essentiellement d'ignorer ces termes pour grand n?

Greenparker