Exemples d'erreurs dans les algorithmes MCMC

J'étudie une méthode de vérification automatique des méthodes Monte Carlo de la chaîne de Markov, et je voudrais quelques exemples d'erreurs qui peuvent se produire lors de la construction ou de la mise en œuvre de tels algorithmes. Points bonus si la méthode incorrecte a été utilisée dans un article publié.

Je suis particulièrement intéressé par les cas où l'erreur signifie que la chaîne a une distribution invariante incorrecte, bien que d'autres types d'erreurs (par exemple, chaîne non ergodique) seraient également intéressants.

Un exemple d'une telle erreur serait de ne pas produire de valeur lorsque Metropolis-Hastings rejette un mouvement proposé.

mcmc Simon Byrne
la source

Un de mes exemples préférés est l' estimateur de la moyenne harmonique car il a de belles propriétés asymptotiques mais il ne fonctionne pas en pratique. Radford Neal en parle dans son blog: "La mauvaise nouvelle est que le nombre de points requis pour que cet estimateur se rapproche de la bonne réponse sera souvent supérieur au nombre d'atomes dans l'univers observable". Cette méthode a été largement mise en œuvre dans les applications.

Une autre courtoisie du professeur Neal.

Cyan

@Cyan Pour que Neal soit pris au sérieux, je pense qu'il aurait dû trouver un journal qui accepterait son article plutôt que de simplement le soumettre sur Internet. Je peux facilement croire qu'il a raison et que les arbitres et l'auteur sont incorrects. Bien qu'il soit difficile de faire publier des articles qui contredisent les résultats publiés et que le rejet de la JASA est décourageant, je pense qu'il aurait dû essayer plusieurs autres revues jusqu'à ce qu'il réussisse. Vous avez besoin d'un arbitre impartial et indépendant pour ajouter de la crédibilité à vos conclusions.

Michael R. Chernick

Il faut toujours prendre le professeur Neal au sérieux! ; o) Sérieusement, il est dommage que des résultats comme celui-ci soient difficiles à publier, et malheureusement la culture universitaire moderne ne semble pas valoriser ce genre de chose, il est donc compréhensible que ce ne soit pas une activité hautement prioritaire pour lui. Question intéressante, je suis très intéressé par les réponses.

Dikran Marsupial

@ Michael: Peut-être. Ayant été de tous côtés dans des situations similaires, y compris dans la position du professeur Neal, à plusieurs reprises, mes observations anecdotiques sont que le rejet du papier comporte très, très peu de contenu d'information dans la plupart des cas, comme le font de nombreuses acceptations. L'examen par les pairs est des ordres de grandeur plus bruyants que les gens ne veulent l'admettre et, souvent, comme cela peut être le cas ici, il y a des parties et des intérêts partiels et intéressés (c'est-à-dire non indépendants). Cela dit, je n'avais pas l'intention que mon commentaire initial nous emmène si loin dans le sujet à l'étude. merci de partager vos réflexions sur la question.

cardinal

Réponses:

1. Probabilité marginale et estimateur de la moyenne harmonique

La vraisemblance marginale est définie comme la constante de normalisation de la distribution postérieure

p (X) = \int_{Θ} p (X | θ) p (θ) ré θ .

$p({\bf x})=\int_{\Theta}p({\bf x}\vert\theta)p(\theta)d\theta.$

L'importance de cette quantité vient du rôle qu'elle joue dans la comparaison des modèles via les facteurs de Bayes .

Plusieurs méthodes ont été proposées pour estimer cette quantité. Raftery et al. (2007) proposent l' estimateur de la moyenne harmonique , qui est rapidement devenu populaire en raison de sa simplicité. L'idée consiste à utiliser la relation

\frac{1}{p (X)} = \int_{Θ} \frac{p (θ | X)}{p (X | θ)} ré θ .

$\dfrac{1}{p({\bf x})}=\int_{\Theta}\dfrac{p(\theta\vert{\bf x})}{p({\bf x}\vert\theta)}d\theta.$

Par conséquent, si nous avons un échantillon de la partie postérieure, disons , cette quantité peut être approximée par $(\theta_1,...,\theta_N)$

\frac{1}{p (X)} \approx \frac{1}{N} \sum_{j = 1}^{N} \frac{1}{p (X | θ_{j})} .

$\dfrac{1}{p({\bf x})}\approx\dfrac{1}{N}\sum_{j=1}^N \dfrac{1}{p({\bf x}\vert\theta_j)}.$

Cette approximation est liée au concept d' échantillonnage d'importance .

Par la loi des grands nombres, comme discuté dans le blog de Neal , nous avons que cet estimateur est cohérent . Le problème est que le requis pour une bonne approximation peut être énorme. Voir le blog de Neal ou le blog de Robert 1 , 2 , 3 , 4 pour quelques exemples. $N$

Alternatives

Il existe de nombreuses alternatives pour approximer . Chopin et Robert (2008) présentent quelques méthodes basées sur l'échantillonnage de l'importance. $p({\bf x})$

2. Ne pas faire fonctionner votre échantillonneur MCMC assez longtemps (spécialement en présence de multimodalité)

Mendoza et Gutierrez-Peña (1999) déduisent la référence a priori / postérieure pour le rapport de deux moyennes normales et présentent un exemple des inférences obtenues avec ce modèle en utilisant un ensemble de données réelles. En utilisant les méthodes MCMC, ils obtiennent un échantillon de taille de la partie postérieure du rapport des moyennes qui est montré ci-dessous $2000$ $\varphi$

entrez la description de l'image ici

Et obtenez l'intervalle HPD pour . Après une analyse de l'expression de la distribution postérieure, il est facile de voir qu'elle a une singularité à et que la postérieure devrait en fait ressembler à ceci (notez la singularité à ) $\varphi$ $(0.63,5.29)$ $0$ $0$

entrez la description de l'image ici

Ce qui ne peut être détecté que si vous exécutez votre échantillonneur MCMC assez longtemps ou si vous utilisez une méthode adaptative. Le HPD obtenu avec l'une de ces méthodes est de comme cela a déjà été rapporté . La longueur de l'intervalle HPD est considérablement augmentée, ce qui a des implications importantes lorsque sa longueur est comparée aux méthodes fréquentistes / classiques . $(0,7.25)$

3. D'autres questions telles que l'évaluation de la convergence, le choix des valeurs de départ, le mauvais comportement de la chaîne peuvent être trouvées dans cette discussion par Gelman, Carlin et Neal.

4. Échantillonnage d'importance

Une méthode d'approximation d'une intégrale consiste à multiplier l'intégrande par une densité , avec le même support, que l'on peut simuler à partir de $g$

je = \int F (X) ré X = \int \frac{F (X)}{g (X)} g (X) ré X .

$I=\int f(x)dx = \int \dfrac{f(x)}{g(x)}g(x)dx.$

Ensuite, si nous avons un échantillon de , , nous pouvons approximer comme suit $g$ $(x_1,...,x_N)$ $I$

je \approx \frac{1}{N} \sum_{j = 1}^{N} \frac{F (X_{j})}{g (X_{j})} .

$I\approx \dfrac{1}{N}\sum_{j=1}^N \dfrac{f(x_j)}{g(x_j)}.$

Un problème possible est que devrait avoir des queues plus lourdes / similaires à / à ou le requis pour une bonne approximation pourrait être énorme. Voir l'exemple de jouet suivant dans R. $g$ $f$ $N$

# Integrating a Student's t with 1 d.f. using a normal importance function   
x1 = rnorm(10000000)   # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))

# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))

la source

Ce sont d'excellents exemples. Pour toute personne intéressée, la lettre à l'éditeur avec le chiffre est ici: onlinelibrary.wiley.com/doi/10.1002/bimj.200800256/abstract

Simon Byrne

Résumé très agréable et clair !! (+1)

gui11aume

Darren Wilkinson sur son blog donne un exemple détaillé d'une erreur courante dans la marche aléatoire Metropolis-Hastings. Je recommande de le lire en entier, mais voici la version tl; dr.

Si la distribution cible est positive (comme les distributions gamma, etc. ) dans une dimension, il est tentant de rejeter immédiatement les propositions qui ont une valeur négative sur cette dimension. L'erreur est de jeter les propositions comme si elles ne s'étaient jamais produites et d'évaluer le ratio d'acceptation de Metropolis-Hastings (MH) des autres uniquement. C'est une erreur car cela revient à utiliser une densité de proposition non symétrique.

L'auteur suggère d'appliquer l'un des deux correctifs.

Comptez les «négatifs» comme échec d'acceptation (et perdez un peu d'efficacité).
Utilisez le bon rapport MH dans ce cas, qui est

\frac{π (X^{*})}{π (X)} \frac{Φ (X)}{Φ (X^{*})},

$\frac{\pi(x^*)}{\pi(x)} \frac{\Phi(x)}{\Phi(x^*)},$

$\pi$ $\Phi$ $\phi$ $\Phi(x) = \int_0^{\infty} \phi(y-x)dy$

gui11aume
la source

+1 Exemple intéressant. Je pensais également à d'autres problèmes avec MH liés au taux d'acceptation. Je pense que le taux optimal de 0,234 a été surutilisé.

@Procrastinator, vous connaissez très bien la littérature du MCMC. Est-ce votre domaine d'expertise?

gui11aume

Merci pour votre commentaire. J'aime les statistiques bayésiennes, alors j'ai besoin de porter la croix MCMC;).

Un cas très clair (lié à l'approximation de vraisemblance marginale mentionnée dans la première réponse) où la véritable convergence est l'exemple du problème du changement d'étiquette dans les modèles de mélange couplé à l'utilisation de l'estimateur de Chib (1995) . Comme l'a souligné Radford Neal (1999), si la chaîne MCMC ne converge pas correctement, dans le sens où elle explore certains modes de distribution cible, l'approximation Monte Carlo de Chib n'atteint pas la bonne valeur numérique.

Xi'an
la source