Comment dériver l'échantillonnage de Gibbs?

11

En fait, j'hésite à poser cette question, car je crains d'être renvoyé à d'autres questions ou à Wikipédia sur l'échantillonnage de Gibbs, mais je n'ai pas l'impression qu'ils décrivent ce qui est à portée de main.

Étant donné une probabilité conditionnelle : p(x|y)

p(x|y)y=y0y=y1x=x01426x=x13446

Et une probabilité conditionnelle : p(y|x)

p(y|x)y=y0y=y1x=x01323x=x13747

Nous pouvons uniquement trouver la probabilité conjointe :funique=p(x,y)

p(x,y)y=y0y=y1p(x)x=x0a0a1c0x=x1a2a3c1p(y)b0b1

Parce que, bien que nous ayons inconnues, nous avons plus ( ) d'équations linéaires:842+3

a0+a1+a2+a3=1b0+b1=1c0+c1=1

Aussi bien que:

14b0=a034b0=a226(1b0)=a146(1b0)=a313c0=a023c0=a137(1c0)=a247(1c0)=a3

Il est rapidement résolu par , . À savoir en égalisant avec . Cela donne et le reste suit.c0=34b023c0=a124b0=a126(1b0)=a1b0=25

p(x,y)y=y0y=y1p(x)x=x0110210310x=x1310410710p(y)410610

Donc, maintenant, nous allons au cas continu. Il est imaginable d'aller à intervalles et de garder la structure ci-dessus intacte (avec plus d'équations que d'inconnues). Cependant, que se passe-t-il lorsque nous passons aux (points) instances de variables aléatoires? Comment l'échantillonnage

xap(x|y=yb)ybp(y|x=xa)

de manière itérative, conduire à ? Équivalent à la contrainte , comment assure-t-elle par exemple? De même avec . Pouvons-nous noter les contraintes et dériver l'échantillonnage de Gibbs des premiers principes?p(x,y)a0+a1+a2+a3=1XYp(x,y)dydx=1Yp(y|x)dy=1

Donc, je ne suis pas intéressé par la façon d'effectuer l'échantillonnage de Gibbs, ce qui est simple, mais je suis intéressé par la façon de le dériver, et de préférence comment prouver qu'il fonctionne (probablement sous certaines conditions).

Anne van Rossum
la source

Réponses:

9

Le calcul d'une distribution conjointe à partir de distributions conditionnelles en général est très difficile. Si les distributions conditionnelles sont choisies arbitrairement, une distribution commune commune pourrait même ne pas exister. Dans ce cas, même montrer que les distributions conditionnelles sont cohérentes est généralement difficile. Un résultat qui pourrait être utilisé pour dériver une distribution conjointe est le lemme de Brook , en choisissant un état fixe , même si je ne l'ai jamais utilisé avec succès à cette fin. Pour en savoir plus sur ce sujet, je voudrais regarder le travail de Julian Besag.

p(x)p(x)=ip(xix<i,x>i)p(xix<i,x>i),
x

Pour prouver que l'échantillonnage de Gibbs fonctionne, cependant, il est préférable d'emprunter un chemin différent. Si une chaîne de Markov implémentée par un algorithme d'échantillonnage a la distribution comme distribution invariante, et est irréductible et apériodique , alors la chaîne de Markov convergera vers cette distribution (Tierney, 1994) .p

L'échantillonnage de Gibbs laissera toujours la distribution conjointe invariante à partir de laquelle les distributions conditionnelles ont été dérivées: grosso modo, si et nous échantillonnons , puis(x0,y0)p(x0,y0)x1p(x1y0)

(x1,y0)p(x0,y0)p(x1y0)dx0=p(x1y0)p(y0)=p(x1,y0).

En d'autres termes, la mise à jour de par échantillonnage conditionnel ne modifie pas la distribution de l'échantillon.x

Cependant, l'échantillonnage de Gibbs n'est pas toujours irréductible . Bien que nous puissions toujours l'appliquer sans casser les choses (dans le sens où si nous avons déjà un échantillon de la distribution souhaitée, cela ne changera pas la distribution), cela dépend de la distribution conjointe si l'échantillonnage de Gibbs va effectivement y converger (un simple suffisant la condition d'irréductibilité est que la densité soit positive partout, ).p(x)>0

Lucas
la source
Problème intéressant sur la compatibilité. Je vérifie maintenant la "compatibilité des distributions conditionnelles discrètes finies" (Song et al.) Qui utilisent une "matrice de rapport" pour établir la compatibilité et l'unicité. Ainsi, Gibbs ne peut pas être dérivé de ces contraintes car elles ne sont pas appliquées au départ. Je peux imaginer qu'il pourrait retourner une distribution conjointe incorrecte (somme> 1) si les distributions conditionnelles sont incompatibles par exemple. D'une certaine manière, cependant, j'ai le sentiment que ce que je fais est quelque chose de déterministe, quelque chose qui ressemble à la transformation du Radon. L'échantillonnage de Gibbs a l'air si ... sale.
Anne van Rossum