Comment les scientifiques trouvent-ils les paramètres et la topologie corrects du modèle de Markov à utiliser?

10

Je comprends comment un modèle de Markov caché est utilisé dans les séquences génomiques, comme la recherche d'un gène. Mais je ne comprends pas comment trouver un modèle Markov particulier. Je veux dire, combien d'États le modèle devrait-il avoir? Combien de transitions possibles? Le modèle devrait-il avoir une boucle?

Comment sauraient-ils que leur modèle est optimal?

Imaginent-ils, disons 10 modèles différents, comparer ces 10 modèles et publier le meilleur?

Bonjour le monde
la source

Réponses:

6

Je connais trois approches principales:

  1. A priori. Vous savez peut-être qu'il y a quatre paires de bases à choisir, et autorisez donc le HMM à avoir quatre états. Ou vous savez peut-être que l'anglais a 44 phonèmes, et donc 44 états pour la couche de phonèmes cachés dans un modèle de reconnaissance vocale.

  2. Estimation. Le nombre d'états peut souvent être estimé à l'avance, peut-être par simple regroupement sur les caractéristiques observées du HMM. Si la matrice de transition HMM est triangulaire (ce qui est souvent le cas dans la prédiction de défaillance), le nombre d'états détermine la forme de la distribution du temps total de l'état de début à l'état de fin.

  3. Optimisation. Comme vous le suggérez, de nombreux modèles sont créés et adaptés et le meilleur modèle est sélectionné. On pourrait également adapter la méthodologie qui apprend le HMM pour permettre au modèle d'ajouter ou de supprimer des états selon les besoins.

Matthew Graves
la source
1

Une autre approche consiste à échantillonner à partir de modèles avec un nombre infiniment infini d'états. La réponse à «combien» émergerait alors en faisant la moyenne sur les échantillonneurs.

http://mlg.eng.cam.ac.uk/zoubin/papers/ihmm.pdf

conjectures
la source