Signification des probabilités de transition initiales dans un modèle de Markov caché

11

Quels sont les avantages de donner certaines valeurs initiales aux probabilités de transition dans un modèle de Markov caché? Finalement, le système les apprendra, alors quel est l'intérêt de donner des valeurs autres que aléatoires? L'algorithme sous-jacent fait-il une différence comme Baum – Welch?

Si je connais très précisément les probabilités de transition au départ et que mon objectif principal est de prédire les probabilités de sortie de l'état caché aux observations, que me conseilleriez-vous?

metdos
la source

Réponses:

7

Baum-Welch est un algorithme d'optimisation pour calculer l'estimateur du maximum de vraisemblance. Pour les modèles de Markov cachés, la surface de vraisemblance peut être assez moche, et elle n'est certainement pas concave. Avec de bons points de départ, l'algorithme peut converger plus rapidement et vers le MLE.

Si vous connaissez déjà les probabilités de transition et que vous souhaitez prédire les états cachés par l'algorithme de Viterbi, vous avez besoin des probabilités de transition. Si vous les connaissez déjà, il n'est pas nécessaire de les réestimer à l'aide de Baum-Welch. La réestimation est plus coûteuse en calcul que la prédiction.

NRH
la source
3

Certains des documents concernant les estimations initiales de HMM sont

Lawrence R. Rabiner (février 1989). "Un tutoriel sur les modèles de Markov cachés et certaines applications de reconnaissance vocale". Actes de l'IEEE 77 (2): 257–286. doi: 10.1109 / 5.18626 (section VC)

Vous pouvez également jeter un oeil à la boîte à outils de modélisation probabiliste pour Matlab / Octave , en particulier la fonction hmmFitEm où vous pouvez fournir votre propre paramètre initial du modèle ou simplement en utilisant (option 'nrandomRestarts'). Lors de l'utilisation de 'nrandomRestarts', le premier modèle (à l'étape init) utilise:

  • Ajuster un mélange de gaussiens via MLE / MAP (en utilisant EM) pour des données continues;
  • Ajuster un mélange de produit de distributions discrètes via MLE / MAP (en utilisant EM) pour les données discrètes;

les deuxième, troisième modèles ... (à l'étape d'initialisation) utilisent des paramètres initialisés au hasard et, comme résultat, convergent plus lentement avec des valeurs de vraisemblance logarithmiques plus faibles.

Sergey
la source