J'ai trouvé ces notes très utiles pour comprendre ce qui se passait dans le matériel supplémentaire.
Je vais répondre à ces questions un peu dans le désordre pour la continuité.
Premièrement: pourquoi
θ(0)≠θ(1)
g0log(P(x;θ))θ(0)θ(1)g0θ
Deuxièmement: pourquoi l'inégalité est-elle resserrée quand
Q(z)=P(z|x;θ)
Il y a un indice dans les notes de bas de page à ce sujet où il est dit,
y=E[y]
QP(x,z;θ)Q(z)
P(x,z;θ)=P(z|x;θ)P(x;θ)
ce qui fait notre fraction
P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)
P(x;θ)zC
log(∑zQ(z)C)≥∑zQ(z)log(C)
Q(z)
gt
La réponse donnée dans les notes que j'ai liées est légèrement différente de celle dans les notes supplémentaires, mais elles ne diffèrent que par une constante et nous la maximisons donc elle n'a pas de conséquence. Celui dans les notes (avec dérivation) est:
gt(θ)=log(P(x|θ(t)))+∑zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))
Cette formule complexe n'est pas abordée en détail dans les notes complémentaires, probablement parce que beaucoup de ces termes seront des constantes qui seront jetées lorsque nous maximiserons. Si vous êtes intéressé par la façon dont nous arrivons ici, je recommande ces notes que j'ai liées.
gt(θ(t))gt(θ(t))=logP(x|θ(t))