Y a-t-il eu des études à grande échelle des méthodes MCMC qui comparent les performances de plusieurs algorithmes différents sur une suite de densités de test? Je pense à quelque chose d'équivalent à l'article de Rios et Sahinidis (2013), qui est une comparaison approfondie d'un grand nombre d'optimiseurs de boîte noire sans dérivé sur plusieurs classes de fonctions de test.
Pour MCMC, les performances peuvent être estimées, par exemple, en nombre effectif d'échantillons (ESS) par évaluation de densité, ou dans une autre mesure appropriée.
Quelques commentaires:
J'apprécie que les performances dépendent fortement des détails du pdf cible, mais un argument similaire (peut-être pas identique) tient à l'optimisation, et néanmoins il existe une pléthore de fonctions de référence, de suites, de concours, de documents, etc. qui traite de l'optimisation de l'analyse comparative. algorithmes.
En outre, il est vrai que MCMC diffère de l'optimisation en ce sens que l'utilisateur doit faire preuve de beaucoup plus de soin et de réglage. Néanmoins, il existe maintenant plusieurs méthodes MCMC qui nécessitent peu ou pas de réglage: des méthodes qui s'adaptent pendant la phase de rodage, pendant l'échantillonnage, ou des méthodes multi-états (également appelées ensemble ) (comme Emcee ) qui font évoluer plusieurs chaînes en interaction et utilisent informations provenant d'autres chaînes pour guider l'échantillonnage.
Je m'intéresse particulièrement à la comparaison entre les méthodes standard et multi-états (aka ensemble). Pour la définition de multi-état, voir la section 30.6 du livre de MacKay :
Dans une méthode multi-états, plusieurs vecteurs de paramètres sont conservés; ils évoluent individuellement sous des mouvements tels que Metropolis et Gibbs; il existe également des interactions entre les vecteurs.
- Cette question est venue d' ici .
Mise à jour
- Pour une interprétation intéressante des méthodes multi-états aka ensemble, voir cet article de blog de Bob Carpenter sur le blog de Gelman, et mon commentaire faisant référence à cet article de CV.
la source
Je suis d'accord avec votre évaluation qu'il n'y a pas de repères complets établis pour les méthodes MCMC. En effet, chaque échantillonneur MCMC présente des avantages et des inconvénients et est extrêmement spécifique au problème.
Dans un cadre de modélisation bayésien typique, vous pouvez exécuter le même échantillonneur avec des taux de mélange différents lorsque les données sont différentes. J'irais jusqu'à dire que si, à l'avenir, sortait une étude de référence complète de divers échantillonneurs MCMC, je ne ferais pas confiance aux résultats pour être applicables en dehors des exemples présentés.
En ce qui concerne l'utilisation de l'ESS pour évaluer la qualité de l'échantillonnage, il convient de mentionner que l'ESS dépend de la quantité qui doit être estimée à partir de l'échantillon. Si vous voulez trouver la moyenne de l'échantillon, l'ESS obtenu sera différent de si vous voulez estimer le 25e quantile. Cela dit, si la quantité d'intérêt est fixe, l'ESS est un moyen raisonnable de comparer les échantillonneurs. Peut-être une meilleure idée est ESS par unité de temps.
Un défaut de l'ESS est que pour les problèmes d'estimation multivariée, l'ESS renvoie une taille d'échantillon efficace pour chaque composante séparément, en ignorant toutes les corrélations croisées dans le processus d'estimation. Dans cet article récemment, un ESS multivarié a été proposé et implémenté en
R
packagemcmcse
via la fonctionmultiESS
. On ne sait pas comment cette méthode se compare à l'ESS ducoda
package, mais au départ semble plus raisonnable que les méthodes ESS univariées.la source