Je comprends où l'étape E se produit dans l'algorithme (comme expliqué dans la section mathématique ci-dessous). Dans mon esprit, l'ingéniosité clé de l'algorithme est l'utilisation de l'inégalité de Jensen pour créer une limite inférieure à la vraisemblance logarithmique. En ce sens, prendre le Expectation
est simplement fait pour reformuler la probabilité logarithmique de s'insérer dans l'inégalité de Jensen (c'est-à-dire pour la fonction concave.)
Y a-t-il une raison pour laquelle le E-step est appelé ainsi? Y a-t-il une signification à la chose que nous attendons (c.-à-d. ? J'ai l'impression de manquer d'intuition derrière la raison pour laquelle l'attente est si centrale, plutôt que d'être simplement accessoire à la utilisation de l'inégalité de Jensen.
EDIT: Un tutoriel dit:
Le nom «E-step» vient du fait que l'on n'a généralement pas besoin de former explicitement la distribution de probabilité sur les achèvements, mais qu'il suffit de calculer des statistiques suffisantes «attendues» sur ces achèvements.
Qu'est-ce que cela signifie "il n'est généralement pas nécessaire de former explicitement la distribution de probabilité sur les achèvements"? À quoi ressemblerait cette distribution de probabilité?
Annexe: E-étape dans l'algorithme EM
la source
Réponses:
Les attentes sont au cœur de l'algorithme EM. Pour commencer, la probabilité associée aux données est représentée comme une attente où l' attente est en termes de distribution marginale du vecteur latent .(x1,…,xn)
L'intuition derrière EM est également basée sur une attente. Étant donné que ne peut pas être optimisé directement, tandis que peut mais dépend des non observés , l'idée est de maximiser à la place la log-vraisemblance complète attendue sauf que cette attente dépend également d'une valeur de , choisie comme , par exemple, d'où la fonction à maximiser (in ) dans l'étape M:logp(x1,…,xn;θ) logp(x1,…,xn,z1,…,zn;θ) zi
la source
La réponse de Xi'an est très bonne, juste une extension concernant l'édition.
Puisque la valeur de n'est pas observée, nous estimons une distribution pour chaque point de données partir des données non observées. La fonction Q est la somme des probabilités logarithmiques attendues surz qx(z) x qx(z)
completions
Les éléments mentionnésp(x,z|θ) Q(θ)
probability distribution over completions
doivent faire référence à . Pour certaines distributions (en particulier la famille exponentielle, puisque la vraisemblance est sous sa forme logarithmique), il suffit de connaître l'attendu (au lieu de la vraisemblance attendue) pour calculer et maximiser .sufficient statistics
Il y a une très bonne introduction au chapitre 19.2 des modèles graphiques probabilistes.
la source