Lors de l'exécution de l'algorithme Metropolis-Hastings avec des distributions de candidats uniformes, quelle est la raison d'avoir des taux d'acceptation autour de 20%?
Ma pensée est la suivante: une fois que les valeurs de paramètre vraies (ou presque vraies) sont découvertes, aucun nouvel ensemble de valeurs de paramètres candidats du même intervalle uniforme n'augmenterait la valeur de la fonction de vraisemblance. Par conséquent, plus j'exécute d'itérations, plus les taux d'acceptation que je dois obtenir sont faibles.
Où ai-je tort dans cette pensée? Merci beaucoup!
Voici l'illustration de mes calculs:
où est la log-vraisemblance.
Comme candidats sont toujours pris dans le même intervalle uniforme,
Par conséquent, le calcul du taux d'acceptation se réduit à:
La règle d'acceptation de est alors la suivante:
Si , où est tiré de la distribution uniforme dans l'intervalle , alors
sinon dessiner partir d'une distribution uniforme dans l'intervalle
la source
Réponses:
Je crois que la faible convergence et la mise à l'échelle optimale des algorithmes Metropolis à marche aléatoire de Roberts, Gelman et Gilks sont à l'origine du taux d'acceptation optimal de 0,234.
Ce que le document montre, c'est que, sous certaines hypothèses, vous pouvez mettre à l'échelle l'algorithme de marche aléatoire Metropolis-Hastings lorsque la dimension de l'espace va à l'infini pour obtenir une diffusion limite pour chaque coordonnée. Dans la limite, la diffusion peut être considérée comme "la plus efficace" si le taux d'acceptation prend la valeur 0,234. Intuitivement, c'est un compromis entre faire de nombreuses petites étapes acceptées et faire de nombreuses grandes propositions qui sont rejetées.
L'algorithme de Metropolis-Hastings n'est pas vraiment un algorithme d'optimisation, contrairement au recuit simulé. Il s'agit d'un algorithme censé simuler à partir de la distribution cible, donc la probabilité d'acceptation ne doit pas être dirigée vers 0.
la source
Juste pour ajouter à répondre par @NRH. L'idée générale suit le principe Goldilocks :
Bien sûr, la question est de savoir ce que nous entendons par «juste ce qu'il faut». Essentiellement, pour un cas particulier, ils minimisent la distance de saut carré attendue. Cela revient à minimiser les autocorrélations lag-1. Récemment, Sherlock et Roberts ont montré que la magie 0,234 est valable pour d'autres distributions cibles:
la source
J'ajoute ceci comme réponse parce que je n'ai pas assez de réputation pour commenter sous la question. Je pense que vous êtes confus entre le taux d' acceptation et le taux d' acceptation .
Maintenant, votre doute que le taux d'acceptation optimal soit de 20% concerne en réalité le taux d'acceptation réel, pas le taux d'acceptation. La réponse est donnée dans les autres réponses. Je voulais juste souligner la confusion que vous avez.
la source