Il s'agit d'un problème de pratique pour un examen à mi-parcours. Le problème est un exemple d'algorithme EM. J'ai des problèmes avec la partie (f). J'énumère les parties (a) - (e) à compléter et au cas où j'aurais fait une erreur plus tôt.
Soit des variables aléatoires exponentielles indépendantes avec un taux . Malheureusement, les valeurs réelles ne sont pas observées, et nous observons uniquement si les valeurs tombent dans certains intervalles. Soit , , et G_ { 3j} = \ mathbb {1} \ left \ {X_j> 2 \ right \} pour j = 1, \ ldots, n . Les données observées sont constituées de (G_ {1j}, G_ {2j}, G_ {3j}) .X1,…,XnθXXG1j=1{Xj<1}G2j=1{1<Xj<2} j = 1 , … , nG3j=1{Xj>2}j=1,…,n(G1j,G2j,G3j)
(a) Donner la probabilité des données observées:
L(θ|G)=∏j=1nPr{Xj<1}G1jPr{1<Xj<2}G2jPr{Xj>2}G3j=∏j=1n(1−e−θ)G1j(e−θ−e−2θ)G2j(e−2θ)G3j
(b) Donner la probabilité complète des données
L(θ|X,G)=∏j=1n(θe−θxj)G1j(θe−θxj)G2j(θe−θxj)G3j
(c) Dériver la densité prédictive de la variable latente f(xj|G,θ)
f(xj|G,θ)=fX,G(xj,g)fG(g)=θe−θxj1{xj∈region r s.t. Grj=1}(1−e−θ)g1j(e−θ−e−2θ)g2j(e−2θ)g3j
(d) E-étape. Donnez la fonctionQ(θ,θi)
Q(θ,θi)=EX|G,θi[logf(x|G,θ)]=nlogθ−θ∑j=1nE[Xj|G,θi]−N1log(1−e−θ)−N2log(e−θ−e−2θ)−N3loge−2θ=nlogθ−θ∑j=1nE[Xj|G,θi]−N1log(1−e−θ)−N2log(e−θ(1−e−θ))+2θN3=nlogθ−θ∑j=1nE[Xj|G,θi]−N1log(1−e−θ)+θN2−N2log(1−e−θ)+2θN3
oùN1=∑nj=1g1j,N2=∑nj=1g2j,N3=∑nj=1g3j
(e) Donner des expressions pour pour . r = 1 , 2 , 3E[Xj|Grj=1,θi]r=1,2,3
Je vais énumérer mes résultats qui, j'en suis sûr, ont raison, mais les dérivations seraient un peu longues pour cette question déjà longue:
E[Xj|G1j=1,θi]E[Xj|G2j=1,θi]E[Xj|G3j=1,θi]=(11−e−θi)(1θi−e−θi(1+1/θi))=(1e−θi−e−2θi)(e−θi(1+1/θi)−e−2θi(2+1/θi))=(1e−2θi)(e−2θi(2+1/θi))
C'est la partie sur laquelle je suis coincé, et cela pourrait être dû à une erreur antérieure:
(f) Étape M. Trouvez le qui maximiseQ ( θ , θ i )θQ(θ,θi)
D'après la loi de l'espérance totale, nous avons
ainsi tousE[Xj|G,θi]=(1θi−e−θi(1+1/θi))+(e−θi(1+1/θi)−e−2θi(2+1/θi))+(e−2θi(2+1/θi))=1/θi
Q(θ,θi)∂Q(θ,θi)∂θ=nlogθ−θ∑j=1nE[Xj|G,θi]−N1log(1−e−θ)+θN2−N2log(1−e−θ)+2θN3=nlogθ−θnθi−N1log(1−e−θ)+θN2−N2log(1−e−θ)+2θN3=nθ−nθi−(N1+N2)e−θ1−e−θ+N2+2N3
Ensuite, je devrais mettre cela égal à zéro et résoudre pour , mais j'ai essayé cela depuis très longtemps et je n'arrive pas à résoudre pour !θθθ
Réponses:
La probabilité de données complètes ne doit pas impliquer G! Cela devrait simplement être la probabilité de lorsque les sont exponentiels. Notez que la probabilité de données complète telle que vous l'avez écrite se simplifie en une probabilité exponentielle car un seul des peut être 1. Laisser les dans la probabilité de données complètes, cependant, vous gâche plus tard. X G r j Gθ X Grj G
Dans la partie (d), il faut tenir compte de la vraisemblance complète du journal de données, et non de la probabilité observée du journal de données.
De plus, vous ne devriez pas utiliser la loi de l'attente totale! Rappelez-vous que G est observé et n'est pas aléatoire, vous ne devez donc effectuer qu'une seule de ces attentes conditionnelles pour chaque . Remplacez simplement cette attente conditionnelle par le terme , puis effectuez l'étape M.X ( i ) jXj X(i)j
la source
Sur la base des commentaires de @ jsk, je vais essayer de remédier à mes erreurs:
en résolvant pour on obtientθ ( i + 1 ) = nθ θ(i+1)=nN1A+N2B+N3C
la source