Modèles de Markov cachés et algorithme de maximisation des attentes

Réponses:

12

L'algorithme EM (maximisation des attentes) est un algorithme général pour l'optimisation de la fonction de vraisemblance dans les cas où le modèle est spécifié de façon probabiliste en termes de composante observée et non observée (latente). Les HMM (modèles de Markov cachés) sont des modèles de cette forme car ils ont une composante non observée, les états cachés et les observations réelles sont souvent appelées les émissions dans la terminologie HMM. Par conséquent, les HMM forment une classe de modèles pour lesquels l'algorithme EM peut être utile.

En général, si le modèle se compose de deux composantes , que nous supposons prendre des valeurs dans un espace fini pour plus de simplicité, et si la spécification du modèle probabiliste se compose des probabilités ponctuelles conjointes , paramétré par , alors la probabilité en observant seulement est p θ ( x , y ) θ X = x L x ( θ ) = y p θ ( x , y ) . θ(X,Y)pθ(x,y)θX=x

Lx(θ)=ypθ(x,y).
Bien que la somme semble innocente, elle ne l'est pas. Pour les HMM, la somme sera sur toutes les transitions possibles entre les états cachés, ce qui devient rapidement un nombre formidable lorsque la longueur de la séquence observée augmente. Heureusement, il existe des algorithmes pour les HMM (avant-arrière) pour le calcul rapide de la probabilité, et la probabilité pourrait alors, en principe, être connectée à tout algorithme d'optimisation à usage général pour l'estimation de la vraisemblance maximale de . L'alternative est l'algorithme EM. Il s'agit d'un algorithme qui alterne de manière itérative entreθ
  • l' étape E , qui est un calcul d'une espérance conditionnelle étant donné le observé sous l'estimation actuelle deθxθ
  • l' étape M , qui est une maximisation

L'algorithme EM a plus de sens si les deux étapes ci-dessus peuvent être implémentées de manière efficace sur le plan des calculs, par exemple lorsque nous avons des expressions de forme fermée pour l'attente conditionnelle et la maximisation.

Historiquement, l'algorithme EM général est attribué à Dempster, Laird et Rubin , qui ont prouvé dans leur article de 1977, entre autres choses, que l'algorithme conduit à une séquence de paramètres avec des valeurs de probabilité augmentant de façon monotone. Ils ont également inventé le terme «algorithme EM». Fait intéressant, l'algorithme EM pour les HMM a déjà été décrit en 1970 par Baum et al. , et est aussi souvent appelé l' algorithme Baum-Welch dans la littérature HMM (je ne sais pas exactement ce que Welch a fait ...).

NRH
la source
3
Welch a inventé ce qu'on appelle maintenant l'algorithme Baum-Welch (il l'appelle "la partie facile"); Baum prouve mathématiquement que l'algorithme fonctionne ("la partie difficile"). Voir courses.cs.tamu.edu/rgutier/cpsc689_s07/welch2003baumWelch.pdf pour les détails exacts.
Mikhail Korobov
@MikhailKorobov, merci pour cette référence informative.
NRH
2

La maximisation des attentes est une méthode itérative utilisée pour effectuer l'inférence statistique sur une variété de modèles statistiques génératifs différents, par exemple un mélange de Gaussiens et d'autres modèles de type de réseau bayésien. La seule connexion est que les HMM sont également des réseaux bayésiens. Mais on n'utiliserait probablement pas EM sur les HMM car il existe un algorithme exact pour l'inférence au sein des HMM appelé l'algorithme de Viterbi. Donc, bien que l'on puisse utiliser EM pour effectuer l'inférence sur un HMM, vous ne le feriez pas parce qu'il n'y a aucune raison de le faire.

William
la source
4
Ce n'est pas tout à fait exact car vous mélangez deux types différents d '"inférence". EM est un algorithme d'estimation de paramètres inconnus, Viterbi est l'algorithme de calcul de la séquence la plus probable d'états cachés. Vous utiliseriez en effet EM pour les HMM pour l'estimation des paramètres. J'ai donné plus de détails sur l'algorithme EM avec des références historiques expliquant la relation entre les HMM et EM dans ma réponse.
NRH
0

En HMM, nous essayons d'estimer principalement trois paramètres:

  1. Les probabilités de l'état initial. Il s'agit d'un vecteur avec éléments, où est le nombre d'états.KKK

  2. La matrice de transition. Ceci est une matrice carrée de taille .K×K

  3. Les probabilités conditionnelles d'observer un élément, conditionnées par un certain état. Il s'agit également d'une matrice de taille , où est le nombre d'observations.NK×NN

Maintenant, la partie EM vient lorsque vous essayez d'estimer les quantités / paramètres indiqués ci-dessus. En partant d'une supposition aléatoire, la probabilité des observations est évaluée et les paramètres sont ajustés de manière itérative jusqu'à obtenir la probabilité maximale. Ainsi, via HMM, nous modélisons certains processus et pour cela, nous devons introduire certains paramètres. Pour estimer les paramètres, EM est rendu.

Ceci est une réponse très brève. La mise en œuvre d'EM nécessite un tas d'autres sous-problèmes à résoudre via une série de techniques. Pour une compréhension approfondie, le papier tutoriel Rabiner classique est fortement recommandé.

Riaz Khan
la source