Quelle est la différence entre l'échantillonnage Metropolis Hastings, Gibbs, Importance et Rejection?

36

J'ai essayé d'apprendre les méthodes MCMC et j'ai découvert l'échantillonnage de Hastings, Gibbs, Importance et Reject dans Metropolis. Certaines de ces différences sont évidentes, c’est-à-dire que Gibbs est un cas particulier de Metropolis Hastings lorsque nous avons les conditions complètes, alors que d’autres sont moins évidentes, comme lorsque nous voulons utiliser MH dans un échantillonneur de Gibbs, etc. moyen simple de voir l’essentiel des différences entre chacun d’eux? Merci!

utilisateur1398057
la source
3
Iain Murray en parle gentiment dans sa conférence , du moins en ce qui concerne MCMC.
gwr
2
Je conviens avec Xi'an que la question est très vaste. vous demandez en fait toute une série d’informations sur quatre choses différentes, une discussion de chacune d’entre elles (ou un contraste entre une paire de réponses) donnerait une réponse un peu longue. Nous pourrions peut-être arriver à nous concentrer sur la question en notant que, bien que les quatre méthodes soient des méthodes de Monte Carlo, l'échantillonnage important et l'échantillonnage de rejet ne sont pas des méthodes MCMC (cela ne veut pas dire qu'elles ne pourraient pas être utilisées dans MCMC).
Glen_b -Reinstate Monica

Réponses:

47

Comme indiqué dans notre livre avec George Casella, des méthodes statistiques Monte Carlo , ces méthodes sont utilisées pour des échantillons de produire à partir d' une distribution donnée, avec une densité par exemple, que ce soit pour obtenir une idée de cette distribution, ou pour résoudre un problème d'intégration ou d' optimisation liée avec f . Par exemple, pour trouver la valeur de X h ( x ) f ( x ) d xFF ou le mode de la distribution de h ( X ) lorsque X ~ f ( x ) ouun quantile de cette distribution.

Xh(X)F(X)Xh(X)R
h(X)X~F(X)

Pour comparer les méthodes de Monte Carlo à la chaîne de Markov et à la chaîne de Markov que vous mentionnez selon des critères pertinents, il est nécessaire de définir l'arrière-plan du problème et les objectifs de l'expérience de simulation, car les avantages et les inconvénients de chacune varient d'un cas à l'autre.

Voici quelques remarques génériques qui ne couvrent certainement pas la complexité de la question :

  1. Les méthodes accept-rejet sont destinées à fournir un échantillon iid de . Pour ce faire, on conçoit un algorithme qui prend en entrée un nombre aléatoire de variables uniformes u 1 , u 2 , , et renvoie une valeur x qui est une réalisation de f . L’ avantage, c’est qu’il n’ya pas d’approximation dans la méthode: le résultat est vraiment un échantillon de i . Les inconvénients sont nombreux: (i) la conception de l'algorithme en trouvant une enveloppe de ffu1,u2,xfffcela peut être généré peut être très coûteux en temps humain; (ii) l'algorithme peut être inefficace en temps de calcul, c'est-à-dire qu'il nécessite de nombreux uniformes pour produire un seul ; (iii) les performances diminuent avec la dimension de X . En bref, ces méthodes ne peuvent être utilisées pour simuler une ou plusieurs simulations à partir de f, à moins qu’elles ne soient déjà disponibles dans un langage informatique tel que R.xXf
  2. Les méthodes de Markov chain Monte Carlo (MCMC) sont des extensions des méthodes de simulation iid lorsque la simulation iid est trop coûteuse. Ils produisent une séquence de simulations dont la distribution limite est la distribution f . Les avantages sont que (i) moins d’informations sur f sont nécessaires pour mettre en œuvre la méthode; (ii) f peut être seulement connue à une constante de normalisation , ou même comme une intégrale f ( x ) alpha Z ~ f ( x , z ) d z(xt)tfff
    f(x)Zf~(x,z)dz
    et toujours être associé à une méthode MCMC; (iii) il existe des algorithmes MCMC génériques pour produire des simulations qui nécessitent très peu d'étalonnage; (iv) la dimension est moins un problème car les cibles de grande dimension peuvent être divisées en conditions de dimension plus petite (comme dans l'échantillonnage de Gibbs). Les inconvénients sont que (i) les simulations ( x t ) t sont corrélées, donc moins informatives que les simulations iid; (ii) la validation de la méthode n'est qu'asymptotique, il est donc approximatif de considérer x t pour un t fixé comme réalisation de f ; (iii) convergence vers(xt)t(xt)txttf (en t ) peut être si lent que, dans la pratique,l'algorithme ne converge pas; (iv) la validation universelle de la méthode signifie qu'il existe un nombre infini d'applications potentielles, avec une plage d'efficacité également infinie.ft
  3. Les méthodes d'échantillonnage d'importance sont initialement conçues pour les approximations intégrales, à savoir générer à partir de la mauvaise cible et compenser par un poids d'importance f ( x ) / g ( x )g(X)
    F(X)/g(X).
    gFgsont que (i) le ré-échantillonnage induit une inefficacité (ce qui peut être partiellement corrigé en réduisant le bruit comme dans le ré-échantillonnage systématique ou le qMC); (ii) le choix "erroné" de peut entraîner d’énormes pertes d’efficacité et même une variance infinie; (iii) l’importance a du mal à faire face aux grandes dimensions et son efficacité diminue rapidement avec la dimension; (iv) la méthode peut être aussi myope que les méthodes MCMC locales dans des régions importantes du support de f .gf

I=Xh(x)f(x)dx,
I^=Xh(x)f(x)dx
F
Xi'an
la source
f
Je me demandais simplement quelle était la h(x)signification concrète h(x)f(x)dxdans un scénario d'analyse bayésienne. Nous essayons d'obtenir le postérieur, compte tenu de la priorité et des données. Cependant, il semble qu'avec toutes ces méthodes d'échantillonnage, nous essayons de faire une approximation f(x). Alors peut-on dire que f(x)c'est déjà la postérieure que nous recherchons et qu'il ne h(x)s'agit que d'une fonction arbitraire que nous pourrions également mettre en place avec la postérieure f(x)? Ou n'ai-je pas bien compris? Merci.
xji
Xh(x)f(x)dx
fh