Différence entre MLE et Baum Welch sur le raccord HMM

9

Dans cette question populaire , une réponse très positive fait que MLE et Baum Welch sont séparés dans le montage HMM.

Pour les problèmes de formation, nous pouvons utiliser les 3 algorithmes suivants: MLE (estimation de vraisemblance maximale), formation Viterbi (NE PAS confondre avec le décodage Viterbi), Baum Welch = algorithme avant-arrière

MAIS dans Wikipedia , il est dit

L'algorithme Baum – Welch utilise l'algorithme EM bien connu pour trouver l'estimation du maximum de vraisemblance des paramètres

Alors, quelle est la relation entre MLE et l'algorithme Baum – Welch?


Ma tentative: l'objectif de l'algorithme de Baum – Welch est de maximiser la vraisemblance, mais il utilise un algorithme spécialisé (EM) pour résoudre l'optimisation. Nous pouvons encore maximiser la probabilité en utilisant d'autres méthodes telles que le gradient décent. C'est pourquoi la réponse sépare deux algorithmes.

Ai-je raison et quelqu'un peut-il m'aider à clarifier?

Haitao Du
la source
1
Dans le cadre de HMM, le MLE est utilisé dans un scénario supervisé et le Baum-Welch dans un scénario non supervisé.
David Batista

Réponses:

3

Reportez-vous à l'une des réponses (par Masterfool) du lien de question que vous avez fourni,

La réponse de Morat est fausse sur un point: Baum-Welch est un algorithme d'Expectation-Maximisation, utilisé pour entraîner les paramètres d'un HMM. Il utilise l'algorithme avant-arrière lors de chaque itération. L'algorithme avant-arrière n'est en réalité qu'une combinaison des algorithmes avant et arrière: une passe avant, une passe arrière.

Et je suis d'accord avec la réponse de PierreE ici, l'algorithme de Baum – Welch est utilisé pour résoudre le maximum de vraisemblance dans HHM. Si les états sont connus (séquence supervisée, étiquetée), alors une autre méthode maximisant le MLE est utilisée (peut-être comme, simplement compter la fréquence de chaque émission et transition observée dans les données d'entraînement, voir les diapositives fournies par Franck Dernoncourt).

Dans le cadre de MLE pour HMM, je ne pense pas que vous pouvez simplement utiliser la descente de gradient, car la probabilité (ou, log-vraisemblance) n'a pas de solution de forme fermée et doit être résolue de manière itérative, comme dans le cas modèles de mélange alors nous nous tournons vers EM. (Voir plus de détails dans Bishop, livre Pattern Recognition, chapitre 13.2.1 Pg614)

Sam
la source
0

Alors, quelle est la relation entre MLE et l'algorithme Baum – Welch?

L'algorithme de maximisation des attentes (EM) est plus général et l'algorithme de Baum-Welch n'en est qu'une instanciation, et EM est un algorithme itératif pour le maximum de vraisemblance (ML). L'algorithme de Baum-Welch est également un algorithme itératif pour un maximum de vraisemblance.

Il existe normalement trois algorithmes d'optimisation pour l'estimation du maximum de vraisemblance (une approche fréquentiste): 1) descente de gradient; 2) chaîne de Markov Monte Carlo; 3) maximisation des attentes.

Lerner Zhang
la source
-1

Cette question est là depuis quelques mois mais cette réponse pourrait aider les nouveaux lecteurs, en complément du commentaire de David Batista.

L'algorithme Baulm-Welch (BM) est un algorithme de maximisation des attentes pour résoudre l'estimation du maximum de vraisemblance (MLE) afin de former votre HMM lorsque les états sont inconnus / masqués (formation non supervisée).

Mais si vous connaissez les états, vous pouvez utiliser une méthode MLE (qui ne sera pas le BM) pour adapter votre modèle aux données / états de la paire de manière supervisée.

PierreE
la source