Taille efficace de l'échantillon pour l'inférence postérieure de l'échantillonnage MCMC

La question que vous posez est différente des "diagnostics de convergence". Disons que vous avez exécuté tous les diagnostics de convergence (choisissez vos favoris) et que vous êtes maintenant prêt à commencer l'échantillonnage à partir de la partie postérieure.

Il existe deux options en termes de taille d'échantillon effective (ESS), vous pouvez choisir un ESS univarié ou un ESS multivarié. Un ESS univarié fournira une taille d'échantillon efficace pour chaque paramètre séparément, et des méthodes conservatrices dictent que vous choisissez la plus petite estimation. Cette méthode ignore toutes les corrélations croisées entre les composants. C'est probablement ce que la plupart des gens utilisent depuis un certain temps

Récemment, une définition multivariée de l'ESS a été introduite. L'ESS multivarié renvoie un nombre pour la taille réelle de l'échantillon pour les quantités que vous souhaitez estimer; et il le fait en tenant compte de toutes les corrélations croisées dans le processus. Personnellement, je préfère de loin l'ESS multivarié. Supposons que vous vous intéressez au vecteur des moyens de la distribution postérieure. Le mESS est défini comme suit $p$ Ici

mESS = n {(\frac{| Λ |}{| Σ |})}^{1 / p} .

$\text{mESS} = n \left(\dfrac{|\Lambda|}{|\Sigma|}\right)^{1/p}.$

est la structure de covariance du postérieur (également la covariance asymptotique dans le CLT si vous aviez des échantillons indépendants) $\Lambda$
est la matrice de covariance asymptotique dans la chaîne de Markov CLT (différente de car les échantillons sont corrélés. $\Sigma$ $\Lambda$
est le nombre de quantités à estimer (ou dans ce cas, la dimension du postérieur. $p$
est le déterminant. $|\cdot|$

mESS peut être estimé en utilisant l'échantillon de matrice de covariance pour estimer et le lot signifie la matrice de covariance pour estimer . Cela a été codé dans la fonction du package R mcmcse . $\Lambda$ $\Sigma$ multiESS

Cet article récent fournit une limite inférieure théoriquement valide du nombre d'échantillons efficaces requis. Avant la simulation, vous devez décider

$\epsilon$ $\epsilon$
$\alpha$
$p$

mESS \geq \frac{2^{2 / p} π}{(p Γ (p / 2))^{2 / p}} \frac{χ_{1 - α, p}^{2}}{ϵ^{2}},

$\text{mESS} \geq \dfrac{2^{2/p} \pi}{(p \Gamma(p/2))^{2/p}} \dfrac{\chi^2_{1-\alpha, p}}{\epsilon^2},$

$\Gamma(\cdot)$ minESS

$p = 20$ $95\%$ $\epsilon = .05$

> minESS(p = 20, alpha = .05, eps = .05)
[1] 8716

Cela est vrai pour tout problème (dans des conditions de régularité). La façon dont cette méthode s'adapte d'un problème à l'autre est que le mélange lent des chaînes de Markov prend plus de temps pour atteindre cette limite inférieure, car mESS sera plus petit. Alors maintenant, vous pouvez vérifier plusieurs fois en utilisant multiESSsi votre chaîne de Markov a atteint cette limite; sinon allez chercher plus d'échantillons.

Greenparker
la source

(+1) Excellente réponse. Savez-vous si la fonction multiESSa été codée pour d'autres langues, comme MATLAB? (ou serait-il difficile de réimplémenter?)

lacerbi

Σ

$\Sigma$

Σ

$\Sigma$

@lacerbi Je suis content que vous ayez pu le coder dans Matlab. Si possible, répondez à ce commentaire quand il sera en place, afin que je puisse l'utiliser. Merci

Greenparker

Mon implémentation MATLAB de multiESS est disponible ici . C'est une version qui fonctionne bien qu'elle aurait besoin de plus de tests (je ne connais pas R, sinon je la comparerais à l'implémentation R).

lacerbi

Taille efficace de l'échantillon pour l'inférence postérieure de l'échantillonnage MCMC

Réponses: