Relation entre Bayes variationnels et EM

26

J'ai lu quelque part que la méthode variationnelle de Bayes est une généralisation de l'algorithme EM. En effet, les parties itératives des algorithmes sont très similaires. Afin de tester si l'algorithme EM est une version spéciale des Bayes variationnels, j'ai essayé ce qui suit:

  1. Y est des données, est la collection de variables latentes et est les paramètres. Dans les Bayes variationnels que nous faisons, nous pouvons faire une approximation telle que . Où s sont des distributions plus simples et exploitables.XΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. Puisque l'algorithme EM trouve une estimation de point MAP, je pensais que les Bayes variationnels peuvent converger vers EM si j'utilise une fonction Delta telle que: . est la première estimation des paramètres, comme c'est généralement le cas dans EM.QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Lorsque est donné, qui minimise la divergence KL est trouvé par la formule La formule ci-dessus se simplifie en , cette étape se révèle être l'équivalent de l'étape Attente de l'algorithme EM!QΘ1(Θ)=δΘ1(Θ)QX1(X)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

Mais je ne peux pas dériver l'étape de maximisation comme la continuation de cela. Dans l'étape suivante, nous devons calculer et selon la règle d'itération variationnelle Bayes, c'est:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

Les algorithmes VB et EM sont-ils vraiment connectés de cette manière? Comment pouvons-nous dériver EM comme un cas particulier des Bayes variationnels, mon approche est-elle vraie?

Ufuk Can Bicici
la source
Où avez-vous lu que l'algorithme EM trouve une estimation MAP? La relation entre l'inférence variationnelle et la MÉ deviendra claire une fois que vous comprendrez la vue de la MÉ présentée dans cet article par Neal et Hinton (1998) . Voir aussi ma réponse ici .
Lucas
Je pense que j'ai appris l'algorithme EM de la même manière que cet article l'explique, il est considéré comme un problème de maximisation de la limite inférieure. En utilisant l'égalité de Jensen et le calcul des variations, on trouve que dans l'étape d'attente, est la distribution qui maximise la borne inférieure de et dans l'étape de maximisation, on trouve , qui est un maximum sur la limite inférieure. Donc, c'est similaire aux Bayes variationnels. (Et il converge vers un maximum local du marginal postérieur, d'où une estimation MAP)P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
Ufuk Can Bicici
1
Toutes mes excuses, je n'ai pas lu votre question suffisamment attentivement. Je crois que votre étape de maximisation pour calculer n'est valide que si vous autorisez une distribution, c'est-à-dire si vous ne faites que l'hypothèse de factorisation. Mais vous avez également supposé que est une distribution delta. Essayez de maximiser explicitement la borne inférieure par rapport à , le paramètre de . QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
Lucas
J'ai trouvé à la page 21 de la présentation cs.cmu.edu/~tom/10-702/Zoubin-702.pdf une comparaison de EM et VB a été montrée, de même en utilisant la fonction Dirac. Mais comment VB se réduit à EM n'est pas donné.
Ufuk Can Bicici

Réponses:

20

Votre approche est correcte. EM est équivalent à VB sous la contrainte que la postérieure approximative de est contrainte d'être une masse ponctuelle. (Ceci est mentionné sans preuve à la page 337 de l'analyse des données bayésiennes .) Soit l'emplacement inconnu de cette masse ponctuelle: VB sera minimiser la divergence KL suivante: Le minimum sur donne le pas E de EM, et le minimum sur donne le pas M de EM. ΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

Bien sûr, si vous deviez réellement évaluer la divergence KL, ce serait infini. Mais ce n'est pas un problème si vous considérez la fonction delta comme une limite.

Tom Minka
la source
Techniquement, maximiser wrt correspond à l'étape M de MAP-EM (avec antérieur ). - section 3.1 du journal VBEMEQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Yibo Yang