Je lis sur MCMC adaptatif (voir par exemple, le chapitre 4 du Handbook of Markov Chain Monte Carlo , éd. Brooks et al., 2011; et aussi Andrieu et Thoms, 2008 ).
Ce résultat est (a posteriori) intuitif, asymptotiquement. Étant donné que le niveau d'adaptation tend à zéro, il ne finira pas par gâcher l'ergodicité. Ma préoccupation est ce qui se passe avec le temps fini .
Comment savons-nous que l'adaptation ne gâche pas l'ergodicité à un temps fini donné et qu'un échantillonneur échantillonne à partir de la distribution correcte? Si cela a du sens, combien de rodage faut-il faire pour s'assurer que l'adaptation précoce ne biaise pas les chaînes?
Les praticiens sur le terrain font-ils confiance aux MCMC adaptatifs? La raison pour laquelle je pose la question est parce que j'ai vu de nombreuses méthodes récentes qui tentent d'intégrer l'adaptation par d'autres moyens plus complexes connus pour respecter l'ergodicité, tels que la régénération ou les méthodes d'ensemble (c'est-à-dire qu'il est légitime de choisir une transition opérateur qui dépend de l'état des autres chaînes parallèles). Alternativement, l'adaptation est effectuée uniquement pendant le rodage, comme dans Stan , mais pas à l'exécution. Tous ces efforts me suggèrent que MCMC adaptatif selon Roberts et Rosenthal (qui serait incroyablement simple à mettre en œuvre) n'est pas considéré comme fiable; mais il y a peut-être d'autres raisons.
Qu'en est-il des implémentations spécifiques, telles que Metropolis-Hastings adaptative ( Haario et al. 2001 )?
Les références
- Rosenthal, JS (2011). Distributions de propositions optimales et MCMC adaptatif. Manuel de Markov Chain Monte Carlo , 93-112.
- Andrieu, C. et Thoms, J. (2008) . Un tutoriel sur MCMC adaptatif. Statistiques et informatique , 18 (4), 343-373.
- Roberts, GO et Rosenthal, JS (2007) . Couplage et ergodicité des algorithmes adaptatifs de Monte Carlo à chaîne de Markov. Journal de probabilité appliquée , 458-475.
- Haario, H., Saksman, E. et Tamminen, J. (2001) . Un algorithme adaptatif de Metropolis. Bernoulli , 223-242.
Réponses:
L'ergodicité et le biais concernent les propriétés asymptotiques de la chaîne de Markov, ils ne disent rien sur le comportement et la distribution de la chaîne de Markov
at a given finite time
. L'adaptivité n'a rien à voir avec ce problème, tout algorithme MCMC peut produire des simulations loin de la cibleat a given finite time
.la source
at a given finite time
. Cependant, dans la pratique, nous les utilisons comme s'ils fournissaient une approximation bonne / raisonnable de la distribution cible à un temps fini donné, même si dans la plupart des cas il n'y a pas de garanties théoriques (AFAIK, seuls quelques cas sont mathématiquement compris). Peut-être devrais-je dire "gâcher le temps de mélange "? C'est plus proche de ce que je voulais dire. Si vous avez des suggestions sur la façon de corriger la langue, faites-le moi savoir.