Hamiltonian Monte Carlo (HMC): quelle est l'intuition et la justification derrière une variable de moment distribuée gaussienne?

Je lis un impressionnant article introductif de HMC par le professeur Michael Betancourt, mais je suis coincé dans la compréhension de la façon dont nous procédons au choix de la distribution de l'élan.

Sommaire

L'idée de base de la console HMC est d'introduire une variable de momentum $p$ en conjonction avec la variable cible $q$ . Ils forment conjointement un espace de phase .

L'énergie totale d'un système conservateur est une constante et le système devrait suivre les équations de Hamilton. Par conséquent, les trajectoires dans l'espace des phases peuvent être décomposées en niveaux d'énergie , chaque niveau correspond à une valeur d'énergie donnée $E$ et peut être décrit comme un ensemble de points qui satisfait:

$H^{-1}(E) = \{(q, p) | H(q, p) = E\}$ .

Nous aimerions estimer la distribution conjointe $\pi(q, p)$ , de sorte qu'en intégrant $p$ nous obtenons la distribution cible souhaitée $\pi(q)$ . En outre, $\pi(q, p)$ peut être écrit de manière équivalente comme $\pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E) \hspace{1.5pt} \pi(E)$ , où $E$ correspond à une valeur particulière de l'énergie et $\theta_E$ est la position sur ce niveau d'énergie.

π (q, p) = {\begin{cases} π (p | q) π (q) \\ π (θ_{E} | E) π (E), décomposition microcanonique \end{cases}

$\begin{equation} \pi(q, p)= \begin{cases} \pi(p \hspace{1.5pt} | \hspace{1.5pt} q) \hspace{1.5pt} \pi(q) \\ \pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E) \hspace{1.5pt} \pi(E), \hspace{5pt} \text{microcanonical decomposition} \end{cases} \end{equation}$

Pour une valeur donnée de $E$ , $\pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E)$ est relativement plus facile à connaître, car nous pouvons effectuer l'intégration des équations de Hamilton pour obtenir les points de données sur la trajectoire. cependant, $\pi(E)$ est la partie délicate qui dépend de la façon dont nous spécifions l'élan, qui détermine par conséquent l'énergie totale $E$ .

Des questions

Il me semble que nous recherchons $\pi(E)$ , mais ce que nous pouvons pratiquement estimer $\pi(E \hspace{1pt} | \hspace{1pt} q)$ , sur la base de l'hypothèse que $\pi(E \hspace{2pt} | \hspace{1pt} q)$ peut être approximativement similaire à $\pi(E)$ , comme illustré sur la figure 23 du document. Cependant, ce que nous échantillonnons semble être $\pi(p \hspace{1pt} | \hspace{1pt} q)$ .

Q1 : Est-ce parce qu'une fois que nous savons $\pi(p \hspace{1pt} | \hspace{1pt} q)$ , nous pouvons facilement calculer $E$ et donc estimer $\pi(E \hspace{2pt} | \hspace{1pt} q)$ ?

Pour faire l'hypothèse que $\pi(E) \sim \pi(E | q)$ maintenez, nous utilisons un élan distribué gaussien. Deux choix sont mentionnés dans le document:

π (p | q) = {\begin{cases} N (p | 0, M) Énergie cinétique euclidienne-gaussienne \\ N (p | 0, Σ (q)) Énergie cinétique réimannienne-gaussienne, \end{cases}

$\begin{equation} \pi(p|q)= \begin{cases} \mathcal{N}(p \hspace{1pt}| \hspace{1pt} 0, M) \hspace{5pt} \text{Euclidean-Gaussian kinetic energy} \\ \mathcal{N}(p \hspace{1pt}| \hspace{1pt} 0, \Sigma(q)) \hspace{5pt} \text{Reimannian-Gaussian kinetic energy}, \end{cases} \end{equation}$

où $M$ est un $D \times D$ constante appelée métrique euclidienne, alias matrice de masse .

Dans le cas du premier choix (euclidien-gaussien), la matrice de masse $M$ est en fait indépendant de $q$ , donc la probabilité que nous échantillonnons est en fait $\pi(p)$ . Le choix de la dynamique gaussienne distribuée $p$ avec covariance $M$ implique que la variable cible $q$ est de distribution gaussienne avec matrice de covariance $M^{-1}$ , comme $p$ et $q$ doivent être transformés inversement pour maintenir le volume dans l'espace des phases constant.

Q2 : Ma question est de savoir comment pouvons-nous nous attendre $q$ suivre une distribution gaussienne? En pratique $\pi(q)$ pourrait être une distribution compliquée.

mcmc monte-carlo hmc cwl
la source

Ce n'est pas tant que nous recherchons $\pi(E)$ c'est juste que si $\pi(E)$ et $\pi(E|q)$ sont différents alors notre exploration sera limitée par notre incapacité à explorer toutes les énergies pertinentes. Par conséquent, dans la pratique, les estimations empiriques $\pi(E)$ et $\pi(E|q)$ sont utiles pour identifier les limites potentielles de notre exploration qui est la motivation pour l'histogramme comparatif et le diagnostic E-BFMI.

Alors, que savons-nous des deux distributions? Alors que nous augmentons la dimensionnalité de notre distribution cible, $\pi(E)$ sorte de-tend à regarder de plus en plus gaussienne. Si nos temps d'intégration sont suffisamment longs, nos explorations des ensembles de niveaux s'équilibreront et si $\pi(p | q)$ est alors gaussien $\pi(E|q)$ aura également tendance à être de plus en plus gaussienne.

Une énergie cinétique gaussienne-euclidienne est donc un bon point de départ mais elle n'est en aucun cas toujours optimale ! Je passe un bon moment à essayer de monter des modèles où Stan me crie de mauvais diagnostics E-BFMI. Une énergie cinétique gaussienne-riemannienne peut être une amélioration significative dans de nombreux cas comme déterminant logarithmique dépendant de la position dans $\pi(p | q)$ peut faire $\pi(E)$ beaucoup plus gaussien, mais il reste encore beaucoup de recherches à faire pour bien comprendre le problème.

Michael Betancourt
la source

J'essayais d'écrire une réponse, mais si LE Michael Betancourt est sur la validation croisée, alors je prendrai un peu de recul :-) juste une note, "la dissuasion du journal" est très probablement une faute de frappe: je parie que vous vouliez dire "déterminant du journal" .

DeltaIV

Flatté d'avoir la réponse de @Michael Betancourt :-) Juste curieux, quand vous avez dit "Alors que nous augmentons la dimensionnalité de notre distribution cible, alors

π (E)

$\pi(E)$ en quelque sorte de plus en plus gaussien ", y a-t-il une preuve théorique ou est-ce une observation empirique?

cwl

@cwl - c'est un argument asymptotique standard. Si la distribution cible converge vers une distribution distribuée indépendamment avec des données ou des paramètres croissants, alors

p i (E)

$pi(E)$ va converger vers un

c h i^{2}

$chi^{2}$ qui sera bien approché par un gaussien au-dessus de quelques dimensions. D'un autre côté, nous avons tendance à atteindre Hamiltonio Monte Carlo en pratique lorsque la cible est complexe, de sorte que les asymptotiques peuvent ne pas être particulièrement pertinentes. D'où la couverture.

Michael Betancourt

J'ai compris @Michael Betancourt, merci beaucoup pour l'explication!

cwl

Hamiltonian Monte Carlo (HMC): quelle est l'intuition et la justification derrière une variable de moment distribuée gaussienne?

Sommaire

Des questions

Réponses: