La procédure EM apparaît, pour les non-initiés, comme une magie plus ou moins noire. Estimer les paramètres d'un HMM (par exemple) à l'aide de données supervisées. Décodez ensuite les données non marquées, en utilisant le sens avant-arrière pour «compter» les événements comme si les données étaient plus ou moins marquées. Pourquoi cela améliore-t-il le modèle? Je sais quelque chose sur les mathématiques, mais je continue à souhaiter une sorte de représentation mentale de celui-ci.
expectation-maximization
intuition
bmargulies
la source
la source
Réponses:
Juste pour économiser du texte, appelez les données observées , les données manquantes (par exemple les états cachés du HMM) et le vecteur de paramètres que nous essayons de trouver (par exemple les probabilités de transition / émission).X Z Q
L'explication intuitive est que nous trichons fondamentalement, faisons semblant pendant un moment que nous connaissons afin que nous puissions trouver une distribution conditionnelle de Z qui à son tour nous permet de trouver le MLE pour (ignorant pour le moment le fait que nous faisons essentiellement une circulaire argument), puis admettre que nous avons triché, mis dans notre nouvelle meilleure valeur pour , et recommencer jusqu'à ce que nous ne devons plus tricher.Q Q Q
Plus techniquement encore, si nous connaissions , nous pourrions maximiser le log ( f ( Q | X , Z ) ) et avoir la bonne réponse. Le problème est que nous ne connaissons pas Z , et toute estimation pour Q doit en dépendre. Mais si nous voulons trouver la meilleure estimation (ou distribution) pour Z , alors nous devons connaître X etZ Journal( f( Q | X,Z) ) Z Q Z X Q . Nous sommes coincés dans une situation de poule et d'oeuf si nous voulons analytiquement le maximiseur unique.
la source