Dans l'algorithme Metropolis – Hastings d'échantillonnage d'une distribution cible, supposons:
- soit la densité cible à l'état ,
- la densité cible à l'état proposé ,
- la densité de proposition pour la transition vers l'état étant donné l'état actuel ,
- soit la probabilité d'acceptation de l'état proposé étant donné l'état actuel .
Ensuite, par l'équation de solde détaillée, après avoir choisi la densité de proposition , la probabilité d'acceptation est calculée comme :
Si est symétrique, c'est-à-dire , alors:
Lorsque est une distribution gaussienne centrée à l'état et a la même variance pour tout , est symétrique. De Wikipédia :
Si est trop grand, presque toutes les étapes de l'algorithme MH seront rejetées. D'un autre côté, si est trop petit, presque toutes les étapes seront acceptées.
Je me demande pourquoi la probabilité d'acceptation change dans le sens inverse du changement de variance de la densité de la proposition, comme mentionné dans la citation ci-dessus?
Réponses:
Afin d'obtenir cela, et pour simplifier les choses, je pense toujours d'abord en un seul paramètre avec une distribution a priori uniforme (à longue portée), de sorte que dans ce cas, l'estimation MAP du paramètre est la même que la MLE . Cependant, supposez que votre fonction de vraisemblance soit suffisamment compliquée pour avoir plusieurs maxima locaux.
Ce que fait MCMC dans cet exemple en 1-D, c'est d'explorer la courbe postérieure jusqu'à ce qu'elle trouve des valeurs de probabilité maximale. Si la variance est trop courte, vous serez certainement bloqué sur les maxima locaux, car vous échantillonnerez toujours des valeurs à proximité: l'algorithme MCMC "pensera" qu'il est bloqué sur la distribution cible. Cependant, si la variance est trop grande, une fois que vous êtes bloqué sur un maximum local, vous rejetez plus ou moins les valeurs jusqu'à ce que vous trouviez d'autres régions de probabilité maximale. S'il vous arrive de proposer la valeur au MAP (ou une région similaire de probabilité maximale locale qui est plus grande que les autres), avec une grande variance, vous finirez par rejeter presque toutes les autres valeurs: la différence entre cette région et les autres sera trop grand.
Bien sûr, tout ce qui précède affectera le taux de convergence et non la convergence "en soi" de vos chaînes. Rappelez-vous que quelle que soit la variance, tant que la probabilité de sélectionner la valeur de cette région maximale globale est positive, votre chaîne convergera.
Pour contourner ce problème, cependant, ce que l'on peut faire est de proposer différentes variations dans une période de rodage pour chaque paramètre et de viser un certain taux d'acceptation qui peut satisfaire vos besoins (disons , voir Gelman, Roberts & Gilks, 1995 et Gelman, Gilks & Roberts, 1997 pour en savoir plus sur la question du choix d'un "bon" taux d'acceptation qui, bien entendu, dépendra de la forme de votre distribution postérieure). Bien sûr, dans ce cas, la chaîne n'est pas markovienne, vous n'avez donc PAS à les utiliser pour l'inférence: vous les utilisez simplement pour ajuster la variance.0,44
la source
Deux hypothèses de base mènent à cette relation:
Prenons d'abord le cas du "petit ". Soit l'état actuel de la chaîne de Markov et l'état proposé. Puisque est très petit, nous pouvons être sûrs que . En combinant cela avec notre première hypothèse, nous voyons que et donc .σ2 Xje Xj∼ N(Xje,σ2) σ2 Xj≈Xje π(Xj) ≈ π(Xje) π(Xj)π(Xje)≈ 1
Le faible taux d'acceptation avec un grand découle de la deuxième hypothèse. Rappelons qu'environ de la masse de probabilité d'une distribution normale se situe à de sa moyenne, donc dans notre cas la plupart des propositions seront générées dans la fenêtre . À mesure que s'agrandit, cette fenêtre s'agrandit pour couvrir de plus en plus le domaine de la variable. La deuxième hypothèse implique que la fonction de densité doit être assez petite sur la plupart du domaine, donc lorsque notre fenêtre d'échantillonnage est grande, sera souvent très petite.σ2 95 % 2 σ [Xje- 2 σ,Xje+ 2 σ] σ2 π(Xj)
Maintenant, pour un peu de raisonnement circulaire: comme nous savons que l'échantillonneur MH génère des échantillons distribués selon la distribution stationnaire , ce doit être le cas qu'il génère de nombreux échantillons dans les régions à haute densité du domaine et peu d'échantillons dans les régions à faible densité . Comme la plupart des échantillons sont générés dans des régions à haute densité, est généralement grand. Ainsi, est grand et est petit, résultant en un taux d'acceptation .π π(Xje) π(Xje) π(Xj) π(Xj)π(Xje)< < 1
Ces deux hypothèses sont vraies pour la plupart des distributions qui pourraient nous intéresser, donc cette relation entre la largeur de la proposition et le taux d'acceptation est un outil utile pour comprendre le comportement des échantillonneurs MH.
la source