Les algorithmes d'apprentissage automatique ou d'apprentissage profond peuvent-ils être utilisés pour «améliorer» le processus d'échantillonnage d'une technique MCMC?

21

Sur la base du peu de connaissances que j'ai sur les méthodes MCMC (Markov chain Monte Carlo), je comprends que l'échantillonnage est une partie cruciale de la technique susmentionnée. Les méthodes d'échantillonnage les plus couramment utilisées sont l'hamiltonien et la métropole.

Existe-t-il un moyen d'utiliser l'apprentissage automatique ou même l'apprentissage en profondeur pour construire un échantillonneur MCMC plus efficace?

Jespar
la source
5
Pourriez-vous préciser quel type "d'amélioration" vous avez en tête et comment voyez-vous le rôle de l'apprentissage automatique dans ce domaine ...?
Tim
2
Habituellement, MCMC implique généralement d'estimer des valeurs à partir d'expressions sans forme fermée qui sont tout simplement trop complexes pour trouver des solutions analytiques. Il est possible que le regroupement multivarié (ou des approches similaires) puisse être utilisé pour estimer des densités multivariées plus simples, mais je verrais cela plus comme une alternative à l'utilisation de MCMC.
AdamO
1
@AdamO, pourquoi ne pas convertir cela en réponse? Il semble que ce soit aussi bon que possible.
gung - Réintègre Monica
@Tim Eh bien, d'après ce que j'ai lu, MCMC tire des échantillons d'une distribution afin de calculer des quantités inférentielles. L'algorithme MH choisit au hasard des «emplacements», puis affirme s'ils sont acceptables. Ce que je me demandais, c'est s'il existe des techniques alternatives ML. Je sais que cela semble vague, et je m'en excuse, mais je trouve le MCMC intriguant et j'essaie de mettre la main sur la théorie et les applications pratiques en auto-étudiant.
Jespar

Réponses:

27

Oui. Contrairement à ce que disent les autres réponses, les méthodes d'apprentissage machine «typiques» telles que les paramètres non paramétriques et les réseaux de neurones (profonds) peuvent aider à créer de meilleurs échantillonneurs MCMC.

Le but du MCMC est de prélever des échantillons à partir d'une distribution cible (non normalisée) . Les échantillons obtenus sont utilisés pour approximer f et permettent principalement de calculer les attentes de fonctions sous f (c'est-à-dire d'intégrales de grande dimension) et, en particulier, les propriétés de f (telles que les moments).f(x)fff

L'échantillonnage nécessite généralement un grand nombre d'évaluations de , et éventuellement de son gradient, pour des méthodes telles que le Hamiltonian Monte Carlo (HMC). Si f est coûteux à évaluer ou si le gradient n'est pas disponible, il est parfois possible de créer une fonction de substitution moins coûteuse qui peut aider à guider l'échantillonnage et est évaluée à la place de f (d'une manière qui préserve toujours les propriétés de MCMC).fff

Par exemple, un article séminal ( Rasmussen 2003 ) propose d'utiliser des processus gaussiens (une approximation de fonction non paramétrique) pour construire une approximation pour et effectuer HMC sur la fonction de substitution, avec seulement l'étape d'acceptation / rejet de HMC basée sur f . Cela réduit le nombre d'évaluation du f d' origine et permet d'effectuer MCMC sur des pdfs qui seraient autrement trop chers à évaluer.JournalFFF

L'idée d'utiliser des substituts pour accélérer MCMC a été beaucoup explorée au cours des dernières années, essentiellement en essayant différentes façons de construire la fonction de substitution et de la combiner efficacement / de manière adaptative avec différentes méthodes MCMC (et d'une manière qui préserve la `` justesse ''). 'd'échantillonnage MCMC). En relation avec votre question, ces deux articles très récents utilisent des techniques avancées d'apprentissage automatique - réseaux aléatoires ( Zhang et al.2015 ) ou fonctions exponentielles du noyau apprises de manière adaptative ( Strathmann et al.2015 ) - pour construire la fonction de substitution.

t

f

Les références:

  1. Rasmussen, Carl Edward. "Des processus gaussiens pour accélérer le Monte Carlo hybride pour les intégrales bayésiennes coûteuses." Statistiques bayésiennes 7. 2003.

  2. Zhang, Cheng, Babak Shahbaba et Hongkai Zhao. "Hamiltonian Monte Carlo Acceleration using Surrogate Functions with Random Bases." préimpression arXiv arXiv: 1506.05555 (2015).

  3. Strathmann, Heiko et al. "Hamiltonien Monte-Carlo sans gradient avec des familles exponentielles de noyau efficaces." Progrès dans les systèmes de traitement de l'information neuronale. 2015.

  4. Nishihara, Robert, Iain Murray et Ryan P. Adams. "MCMC parallèle avec échantillonnage de tranche elliptique généralisé." Journal of Machine Learning Research 15.1 (2014): 2087-2112.

lacerbi
la source
2
Je ne suis pas sûr que les méthodes que vous avez énumérées soient vraiment dans la catégorie des "méthodes d'apprentissage automatique", plutôt que les méthodes MCMC standard (bien que ce soit la ligne la plus floue). La seule qui semble définitivement être une méthode ML / DL était 3, ce qui a depuis supprimé "réseau de neurones" de son titre (et semble admettre dans le texte que l'utilisation de méthodes ML standard serait beaucoup trop lente).
Cliff AB
2
t
1
Merci beaucoup @lacerbi. Je suis heureux de pouvoir utiliser vos références comme fondement pour d'autres recherches.
Jespar
6

Une méthode qui pourrait relier les deux concepts est celle d'un algorithme multivarié de Metropolis Hastings. Dans ce cas, nous avons une distribution cible (la distribution postérieure) et une distribution de proposition (typiquement une distribution multivariée normale ou t).

Un fait bien connu est que plus la distribution de la proposition est éloignée de la distribution postérieure, moins l'échantillonneur est efficace. On pourrait donc imaginer utiliser une sorte de méthode d'apprentissage automatique pour construire une distribution de proposition qui correspond mieux à la vraie distribution postérieure qu'une simple distribution multivariée normale / t.

Cependant, il n'est pas clair que ce serait une amélioration de l'efficacité. En suggérant l'apprentissage en profondeur, je suppose que vous pourriez être intéressé à utiliser une sorte d'approche de réseau neuronal. Dans la plupart des cas, cela coûterait beaucoup plus cher en calcul que la méthode MCMC vanille elle-même. De même, je ne connais aucune raison pour laquelle les méthodes NN (ou même la plupart des méthodes d'apprentissage automatique) font un bon travail pour fournir une densité adéquate en dehors de l'espace observé, crucial pour MCMC. Donc, même en ignorant les coûts de calcul associés à la construction du modèle d'apprentissage automatique, je ne vois pas de bonne raison pour laquelle cela améliorerait l'efficacité d'échantillonnage.

Cliff AB
la source
Cliff AB Je pense que vous et @AdamO m'avez clarifié les concepts MCMC et ML plus que de passer des heures sur un autre livre. J'apprécie vos efforts et je suis heureux que vous ayez mentionné certains domaines dans lesquels je peux approfondir.
Jespar
@Sitherion de quel livre parlez-vous?
AdamO
@AdamO Je lis actuellement l'apprentissage par renforcement de Richard Sutton et Machine Learning: A Probabilistic Perspective de Kevin Murphy qui contient un chapitre du MCMC; et aussi des publications de diverses revues de ML et de statistiques computationnelles.
Jespar
3

Le Machine Learning concerne la prédiction, la classification ou le clustering dans un environnement supervisé ou non supervisé. D'un autre côté, MCMC se préoccupe simplement d'évaluer un complexe complexe (généralement sans forme fermée) à l'aide de méthodes numériques probabilistes. L'échantillonnage Metropolis n'est certainement pas l'approche la plus couramment utilisée. En fait, c'est la seule méthode MCMC à ne pas avoir de composante probabiliste. Dans ce cas, ML n'informera donc rien de MCMC.

L' importance échantillonnage basé sur le fait besoin d' une composante probabiliste. Il est plus efficace que Metropolis selon certaines hypothèses de base. Les méthodes ML peuvent être utilisées pour estimer cette composante probabiliste si elle rejoint certaines hypothèses. Des exemples pourraient être un regroupement multivarié pour estimer une densité gaussienne complexe de haute dimension. Je ne connais pas les approches non paramétriques de ce problème, mais cela pourrait être un domaine de développement intéressant.

Néanmoins, ML me semble être une étape distincte dans le processus d'estimation d'un modèle de probabilité complexe de grande dimension qui est ensuite utilisé dans une méthode numérique. Je ne vois pas comment ML améliore vraiment MCMC dans ce cas.

AdamO
la source
Merci @AdamO, au moins maintenant j'ai une bien meilleure compréhension de ce domaine.
Jespar
1
Je pense que cette réponse est incomplète et peut-être incorrecte (selon l'interprétation de la question réelle du PO, qui n'est pas complètement claire). Des méthodes ML typiques telles que les paramètres non paramétriques et les réseaux de neurones peuvent et sont utilisées pour améliorer les échantillonneurs MCMC. En fait, c'est un domaine de recherche actif. Voir ma réponse et ses références pour commencer.
lacerbi
1
p
Merci @AdamO. Pourtant, pour être honnête, je ne comprends pas votre explication, ni comment elle rend votre réponse correcte. Par exemple, je ne comprends pas ce que vous voulez dire lorsque vous dites que Metropolis n'a «aucune composante probabiliste». En outre, vous déclarez que le ML ne peut pas aider à l'échantillonnage, ce qui est tout simplement faux (même dans la définition étroite de l'échantillonnage comme estimation d'une intégrale de grande dimension), comme le montre ma réponse.
lacerbi
3
@AdamO: processus gaussiens, méthodes du noyau, réseaux à base aléatoire. En général, toute forme d'approximation de fonction ou d'estimation de densité fonctionnerait. Si ce ne sont pas des méthodes ML, je ne sais pas ce que c'est ... (veuillez noter que l'OP a demandé des méthodes ML ou DL). De plus, comme je l'ai demandé ci-dessus, pouvez-vous expliquer ce que vous vouliez dire lorsque vous avez écrit que Metropolis n'a pas de composante probabiliste? Merci!
lacerbi
0

Il y a eu des travaux récents en physique computationnelle où les auteurs ont utilisé les machines Boltzmann restreintes pour modéliser la distribution de probabilité, puis proposer (espérons-le) des mises à jour Monte Carlo efficaces arXiv: 1610.02746 . L'idée ici s'avère être assez similaire aux références données par @lacerbi ci-dessus.

Dans une autre tentative 1702.08586 , l'auteur a explicitement construit Boltzmann Machines qui peut effectuer (et même découvrir) les célèbres mises à jour du cluster Monte Carlo .

Lei Wang
la source