Quels algorithmes / techniques MCMC sont utilisés pour les paramètres discrets?

19

Je connais assez bien l'ajustement de paramètres continus, en particulier les méthodes basées sur le gradient, mais pas beaucoup d'ajustement de paramètres discrets.

Quels sont les algorithmes / techniques MCMC couramment utilisés pour ajuster des paramètres discrets? Existe-t-il des algorithmes à la fois assez généraux et assez puissants? Existe-t-il des algorithmes qui gèrent bien la malédiction de la dimensionnalité? Par exemple, je dirais que le MCMC hamiltonien est général, puissant et évolue bien.

L'échantillonnage à partir d'une distribution discrète arbitraire semble plus difficile que l'échantillonnage à partir d'une distribution continue, mais je suis curieux de connaître l'état de la technique.

Edit : JMS m'a demandé de développer.

Je n'ai pas d'applications spécifiques en tête, mais voici quelques types de modèles que j'imagine:

  • Sélection de modèles entre plusieurs types de modèles de régression continue. Vous avez un seul paramètre «modèle» discret
  • Un modèle continu où chaque observation a la possibilité d'être une «valeur aberrante» et tirée d'une distribution beaucoup plus dispersée. Je suppose que c'est un modèle de mélange.

Je m'attendrais à ce que de nombreux modèles incluent à la fois des paramètres continus et discrets.

John Salvatier
la source

Réponses:

13

La réponse est donc simple: Metropolis-Hastings et son cas particulier d'échantillonnage Gibbs :) Général et puissant; si elle évolue ou non, cela dépend du problème à résoudre.

Je ne sais pas pourquoi vous pensez qu'il est plus difficile d'échantillonner une distribution discrète arbitraire qu'une distribution continue arbitraire. Si vous pouvez calculer la distribution discrète et que l'espace d'échantillonnage n'est pas énorme, c'est beaucoup, beaucoup plus facile (à moins que la distribution continue ne soit standard, peut-être). Calculez la probabilité pour chaque catégorie, puis normalisez pour obtenir les probabilités P ( ˜ k = k ) = f ( k ) /f ( k ) et utilisez l'échantillonnage à transformée inverse (en imposant un ordre arbitraire à k ).F(k)P(k~=k)=F(k)/F(k)k

Avez-vous un modèle particulier en tête? Il existe toutes sortes d'approches MCMC pour ajuster des modèles de mélange, par exemple, où les affectations de composants latentes sont des paramètres discrets. Celles-ci vont de très simples (Gibbs) à assez complexes.

Quelle est la taille de l'espace des paramètres? Est-il potentiellement énorme (par exemple dans le cas du modèle de mélange, c'est N par le nombre de composants du mélange)? Vous pourriez ne pas avoir besoin de plus qu'un échantillonneur Gibbs, car la conjugaison n'est plus un problème (vous pouvez obtenir directement la constante de normalisation afin de calculer les conditions complètes). En fait, Gibbs griddy était populaire dans ces cas, où un a priori continu est discrétisé pour faciliter le calcul.

Je ne pense pas qu'il y ait un "meilleur" particulier pour tous les problèmes ayant un espace de paramètres discret plus qu'il n'y en a pour le cas continu. Mais si vous nous en dites plus sur les modèles qui vous intéressent, nous pouvons peut-être faire quelques recommandations.

Edit: OK, je peux donner un peu plus d'informations sur vos exemples.

p(β)πN(β;0,τ)+(1-π)N(β,0,1000τ)p(β)πδ0(β)+(1-π)N(β,0,τ)δ0βZZ1,Zp2p1:2p

p(Z,β|y)p(Z,β|y)=p(β|Oui,Z)p(Z|Oui)Zβ

SSVS intègre tout l'espace du modèle dans un grand modèle. Souvent, cela est facile à mettre en œuvre mais donne de mauvais résultats. Le saut réversible MCMC est un type d'approche différent qui permet de varier explicitement la dimension de l'espace des paramètres; voir [3] pour une revue et quelques notes pratiques. Vous pouvez trouver des notes plus détaillées sur la mise en œuvre dans différents modèles dans la littérature, j'en suis sûr.

p=1000

Une approche différente qui gagne en popularité consiste à utiliser des rétrécissements absolument continus qui imitent les résultats moyens du modèle. Généralement, ceux-ci sont formulés comme des mélanges d'échelle de normales. Le lasso bayésien en est un exemple, qui est un cas particulier de prieurs gamma normaux et un cas limite de prieurs gamma normaux exponentiels. D'autres choix incluent le fer à cheval et la classe générale des distributions normales avec des bêta a priori inversés sur leur variance. Pour en savoir plus, je suggère de commencer par [6] et de revenir en arrière dans les références (trop nombreuses pour que je les reproduise ici :))

J'en ajouterai plus sur les modèles aberrants plus tard si j'en ai l'occasion; la référence classique est [7]. Ils sont très similaires dans leur esprit aux rétrécissements précédents. Habituellement, ils sont assez faciles à faire avec l'échantillonnage de Gibbs.

Peut-être pas aussi pratique que vous l'espériez; la sélection des modèles en particulier est un problème difficile et plus le modèle est élaboré, plus il empire. Dans la mesure du possible, bloquer la mise à jour est le seul conseil général que j'ai. L'échantillonnage à partir d'un mélange de distributions vous posera souvent le problème que les indicateurs d'appartenance et les paramètres des composants sont fortement corrélés. Je n'ai pas non plus abordé les problèmes de changement d'étiquette (ou le manque de changement d'étiquette); il y a pas mal de littérature mais c'est un peu hors de ma timonerie.

Quoi qu'il en soit, je pense qu'il est utile de commencer par certaines des références ici, pour avoir une idée des différentes façons dont d'autres abordent des problèmes similaires.

[1] Merlise Clyde et EI George. Model Uncertainty Statistical Science 19 (2004): 81--94. http://www.isds.duke.edu/~clyde/papers/statsci.pdf

[2] http://www-personal.umich.edu/~bnyhan/montgomery-nyhan-bma.pdf

[3] Green & Hastie Reversible jump MCMC (2009) http://www.stats.bris.ac.uk/~mapjg/papers/rjmcmc_20090613.pdf

[4] http://www.stat.duke.edu/~clyde/BAS/

[5] http://ba.stat.cmu.edu/journal/2010/vol05/issue03/bottolo.pdf

[6] http://www.uv.es/bernardo/Polson.pdf

[7] Mike West Outlier models and prior distributions in Bayesian linear regression (1984) JRSS-B

JMS
la source
1
Je m'excuse d'avoir mis beaucoup de temps à répondre. J'ai mis quelques exemples de types de modèles. Faites-moi savoir si vous souhaitez plus de précisions. Je pensais que les distributions discrètes étaient plus difficiles à échantillonner, car il semble qu'elles seraient plus sujettes à un comportement de type multimodal. La normalisation explicite est-elle applicable lorsque vous avez un mélange de variables discrètes et continues?
John Salvatier