Pourquoi y a-t-il un E dans le nom de l'algorithme EM?

8

Je comprends où l'étape E se produit dans l'algorithme (comme expliqué dans la section mathématique ci-dessous). Dans mon esprit, l'ingéniosité clé de l'algorithme est l'utilisation de l'inégalité de Jensen pour créer une limite inférieure à la vraisemblance logarithmique. En ce sens, prendre le Expectationest simplement fait pour reformuler la probabilité logarithmique de s'insérer dans l'inégalité de Jensen (c'est-à-dire pour la fonction concave.)E(f(x))<f(E(x))

Y a-t-il une raison pour laquelle le E-step est appelé ainsi? Y a-t-il une signification à la chose que nous attendons (c.-à-d. ? J'ai l'impression de manquer d'intuition derrière la raison pour laquelle l'attente est si centrale, plutôt que d'être simplement accessoire à la utilisation de l'inégalité de Jensen.p(xi,zi|θ)

EDIT: Un tutoriel dit:

Le nom «E-step» vient du fait que l'on n'a généralement pas besoin de former explicitement la distribution de probabilité sur les achèvements, mais qu'il suffit de calculer des statistiques suffisantes «attendues» sur ces achèvements.

Qu'est-ce que cela signifie "il n'est généralement pas nécessaire de former explicitement la distribution de probabilité sur les achèvements"? À quoi ressemblerait cette distribution de probabilité?


Annexe: E-étape dans l'algorithme EM

ll=ilogp(xi;θ)definition of log likelihood=ilogzip(xi,zi;θ)augment with latent variables z=ilogziQi(zi)p(xi,zi;θ)Qi(zi)Qi is a distribution for zi=ilogEzi[p(xi,zi;θ)Qi(zi)]taking expectations - hence the E in EMEzi[logp(xi,zi;θ)Qi(zi)]Using Jensen's rule for log which is concaveiziQi(zi)logp(xi,zi;θ)Qi(zi)Q function to maximize
Heisenberg
la source
2
Pour moi, ce que vous demandez n'est pas clair, mais j'ai toujours supposé que la pertinence derrière la désignation de l'étape E est que, dans un certain sens, vous "remplissez" ou "imputez" le manquant en prenant l'attente. Certes, ce n'est pas exactement ce qui se passe parce que vous prenez ce qui n'est pas la même chose que de brancher quelque chose pour le il manque valeurs , mais sur le plan opérationnel, on finit souvent par faire quelque chose comme ça. Si nous faisions une augmentation des données - qui est similaire à l'EM à bien des égards. zEθ[logp(x,Z;θ)X=x]Z
gars le
Oui, c'est le genre de discussion que je veux avoir. Donc, quand vous dites imputer z en prenant l'attente ". L'attente de quoi? De plus, voulez-vous dire au lieu de ?EzEθ
Heisenberg
Mon éducation a toujours été d'indexer le avec le paramètre indexant la mesure de probabilité à laquelle l'attente est prise par rapport à. Dans CS, ils le font comme vous le suggérez. J'intègre , en conditionnant sur une mesure indexée par . EZXθ
gars le
Par exemple, lors de l'ajustement de mélanges gaussiens, l'étape E a imputé les indicateurs de classe manquants. Mais il le fait de manière floue en calculant les responsabilités pour chaque observation.
gars

Réponses:

11

Les attentes sont au cœur de l'algorithme EM. Pour commencer, la probabilité associée aux données est représentée comme une attente où l' attente est en termes de distribution marginale du vecteur latent .(x1,,xn)

p(x1,,xn;θ)=Znp(x1,,xn,z1,,zn;θ)dz=Znp(x1,,xn|z1,,zn,θ)p(z1,,zn;θ)dz=Eθ[p(x1,,xn|z1,,zn,θ)]
(z1,,zn)

L'intuition derrière EM est également basée sur une attente. Étant donné que ne peut pas être optimisé directement, tandis que peut mais dépend des non observés , l'idée est de maximiser à la place la log-vraisemblance complète attendue sauf que cette attente dépend également d'une valeur de , choisie comme , par exemple, d'où la fonction à maximiser (in ) dans l'étape M: logp(x1,,xn;θ)logp(x1,,xn,z1,,zn;θ)zi

E[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
θθ0θ
Q(θ0,θ)=Eθ0[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
L'inégalité de Jensen ne vient que pour justifier l'augmentation de la probabilité observée à chaque étape M.
Xi'an
la source
1
Merci pour l'explication. Puisque notre distribution postérieure pour les vecteurs latents change à chaque étape, change à chaque étape ainsi que? Si c'est le cas, cette image est un peu déroutante car il y a une courbe rouge fixe représentant , alors qu'elle "change" à chaque étape puisque nous faisons la moyenne de notre croyance actuelle à propos de les vecteurs latents à cette étape. Eθ[p(x1,,xn,z,,z,θ)]p(x;θ)p(x;θ)z
Heisenberg
désolé, je ne comprends pas la question: à chaque étape EM, la valeur de change et augmente. Cela ne signifie pas que la fonction de vraisemblance elle-même change. Eθ[p(x1,,xn|z1,,zn,θ)]
Xi'an
Est-ce que ? Si le RHS change selon notre croyance postérieure sur le vecteur latent, le LHS change-t-il également? p(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)]
Heisenberg
Cette identité est dans ma réponse. Les deux côtés prennent des valeurs différentes lorsque varie. Cependant, dans cette équation, il n'y a aucune notion de croyance postérieure car (a) est fixe et (b) les sont considérés marginalement. θθzi
Xi'an
1
À chaque itération , l'étape E utilise pour calculer l'intégraleD'où la fonction cible pour maximiser les changements à chaque itération . Cela ne dit rien sur la probabilité cible d'origine qui ne dépend que d'un seul . tp(z|x,θt)
Q(θt,θ)=Eθt[logp(x1,,xn,z1,,zn;θ)|x1,,xn].
tp(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)]θ
Xi'an
1

La réponse de Xi'an est très bonne, juste une extension concernant l'édition.

Le nom «E-step» vient du fait que l'on n'a généralement pas besoin de former explicitement la distribution de probabilité sur les achèvements, mais qu'il suffit de calculer des statistiques suffisantes «attendues» sur ces achèvements.

Puisque la valeur de n'est pas observée, nous estimons une distribution pour chaque point de données partir des données non observées. La fonction Q est la somme des probabilités logarithmiques attendues surzqx(z)xcompletionsqx(z)

Q(θ)=xEqx[logp(x,z|θ)]

Les éléments mentionnés probability distribution over completionsdoivent faire référence à . Pour certaines distributions (en particulier la famille exponentielle, puisque la vraisemblance est sous sa forme logarithmique), il suffit de connaître l'attendu (au lieu de la vraisemblance attendue) pour calculer et maximiser .p(x,z|θ)sufficient statisticsQ(θ)


Il y a une très bonne introduction au chapitre 19.2 des modèles graphiques probabilistes.

dontloo
la source