Peut-on faire confiance à MCMC adaptatif?

20

Je lis sur MCMC adaptatif (voir par exemple, le chapitre 4 du Handbook of Markov Chain Monte Carlo , éd. Brooks et al., 2011; et aussi Andrieu et Thoms, 2008 ).

np(n)limnp(n)=0

Ce résultat est (a posteriori) intuitif, asymptotiquement. Étant donné que le niveau d'adaptation tend à zéro, il ne finira pas par gâcher l'ergodicité. Ma préoccupation est ce qui se passe avec le temps fini .

  • Comment savons-nous que l'adaptation ne gâche pas l'ergodicité à un temps fini donné et qu'un échantillonneur échantillonne à partir de la distribution correcte? Si cela a du sens, combien de rodage faut-il faire pour s'assurer que l'adaptation précoce ne biaise pas les chaînes?

  • Les praticiens sur le terrain font-ils confiance aux MCMC adaptatifs? La raison pour laquelle je pose la question est parce que j'ai vu de nombreuses méthodes récentes qui tentent d'intégrer l'adaptation par d'autres moyens plus complexes connus pour respecter l'ergodicité, tels que la régénération ou les méthodes d'ensemble (c'est-à-dire qu'il est légitime de choisir une transition opérateur qui dépend de l'état des autres chaînes parallèles). Alternativement, l'adaptation est effectuée uniquement pendant le rodage, comme dans Stan , mais pas à l'exécution. Tous ces efforts me suggèrent que MCMC adaptatif selon Roberts et Rosenthal (qui serait incroyablement simple à mettre en œuvre) n'est pas considéré comme fiable; mais il y a peut-être d'autres raisons.

  • Qu'en est-il des implémentations spécifiques, telles que Metropolis-Hastings adaptative ( Haario et al. 2001 )?


Les références

lacerbi
la source
1
+1 mais existe-t-il des garanties à durée limitée, même pour les MCMC non adaptatifs?
Juho Kokkala du
2
@JuhoKokkala: probablement pas, mais il semble qu'avec MCMC adaptatif, on ajoute une autre couche de modes de défaillance possibles, qui sont moins compris et plus difficiles à vérifier que les problèmes de convergence standard (qui sont déjà assez difficiles à diagnostiquer en soi). Du moins, c'est ma compréhension des raisons pour lesquelles les pratiquants (moi, pour ma part) s'en méfieraient.
lacerbi
1
Je pense que l'adaptation pendant le burnin est la meilleure façon de gérer l'adaptation. Évidemment, si certaines zones de votre postérieur nécessitent un réglage différent des autres, vous aurez des problèmes, mais si c'est le cas, si vous exécutez MCMC entièrement adaptatif, vous ne serez pas autorisé à vous adapter beaucoup en raison de la condition de disparition de toute façon. .
sega_sai

Réponses:

2

Comment savons-nous que l'adaptation ne gâche pas l'ergodicité à un temps fini donné et qu'un échantillonneur échantillonne à partir de la distribution correcte? Si cela a du sens, combien de rodage faut-il faire pour s'assurer que l'adaptation précoce ne biaise pas les chaînes?

L'ergodicité et le biais concernent les propriétés asymptotiques de la chaîne de Markov, ils ne disent rien sur le comportement et la distribution de la chaîne de Markov at a given finite time. L'adaptivité n'a rien à voir avec ce problème, tout algorithme MCMC peut produire des simulations loin de la cible at a given finite time.

Xi'an
la source
1
(+1) Merci pour la clarification. Oui, je comprends que les algorithmes MCMC n'ont aucune garantie at a given finite time. Cependant, dans la pratique, nous les utilisons comme s'ils fournissaient une approximation bonne / raisonnable de la distribution cible à un temps fini donné, même si dans la plupart des cas il n'y a pas de garanties théoriques (AFAIK, seuls quelques cas sont mathématiquement compris). Peut-être devrais-je dire "gâcher le temps de mélange "? C'est plus proche de ce que je voulais dire. Si vous avez des suggestions sur la façon de corriger la langue, faites-le moi savoir.
lacerbi