Modèle de Markov caché vs modèle de transition de Markov vs modèle d'état-espace…?

Pour ma thèse de maîtrise, je travaille sur le développement d'un modèle statistique des transitions entre différents états, défini par le statut sérologique. Pour l'instant, je ne donnerai pas trop de détails dans ce contexte, car ma question est plus générale / théorique. Quoi qu'il en soit, mon intuition est que je devrais utiliser un modèle de Markov caché (HMM); le problème que je rencontre en parcourant la littérature et les autres recherches de fond nécessaires pour formuler mon modèle est la confusion sur la terminologie et les différences exactes entre les différents types de modèles de processus cachés. Je ne sais que très vaguement ce qui les distingue (exemples à venir). De plus, il me semble que, du moins d'après ce que j'ai vu dans la littérature, il existe un vocabulaire très non standard construit autour de ce type de modélisation,

J'espérais donc que les gens pourraient m'aider à lever l'ambiguïté de certains de ces termes pour moi. J'ai un certain nombre de questions, mais je suppose que si une ou deux réponses sont satisfaisantes, le reste se démêlera en conséquence. J'espère que ce n'est pas trop long; si un modérateur veut que je divise cela en plusieurs messages, je le ferai. Dans tous les cas, j'ai mis mes questions en gras, suivies des détails de la question que j'ai découverte lors de ma recherche documentaire.

Donc, sans ordre particulier:

1) Qu'est-ce qu'un "modèle de processus caché"?

J'ai eu l'impression que le "modèle de processus caché" est en quelque sorte un terme générique qui peut être utilisé pour décrire un certain nombre de types de modèles statistiques différents, toutes des descriptions essentiellement probabilistes de données de séries chronologiques générées par "un système de chevauchement, processus potentiellement cachés, linéairement additifs "([1]). En effet, [2] définit un "modèle de processus caché" comme "un terme général se référant à un modèle d'espace d'état ou à un modèle de Markov caché". [1] semble inférer qu'un modèle de Markov caché est un sous-type de modèles de processus cachés spécifiquement orientés vers l'inférence sur les états binaires; l'implication de base me semble qu'un modèle de processus caché est une généralisation d'un modèle de Markov caché. Je vois parfois "modèle de processus caché" ET la phrase "

Cette intuition de ma part est-elle correcte? Sinon, quelqu'un a-t-il une référence qui délimite plus clairement ces méthodes?

2) Quelle est la différence entre un modèle de Markov caché et un modèle d'espace d'état?

Revenant à nouveau à [2] (ne serait-ce que parce que le document est accompagné d'un glossaire clair, et non pas parce que le document lui-même semble faire particulièrement autorité; ce n'est qu'une source pratique de définitions d'une phrase), la différence semble être que un modèle de Markov caché est un type spécifique de modèle d'espace d'états dans lequel les états sont markoviens (il ne semble pas y avoir de restriction définie sur l'ordre du processus de Markov; c'est-à-dire premier ordre, ..., kième ordre). Ici, un modèle d'état-espace est défini comme «un modèle qui exécute deux séries temporelles en parallèle, l'un capture la dynamique des états réels (latents) et l'autre consiste en des observations qui sont faites à partir de ces états sous-jacents mais peut-être inconnus». Si ces états présentent également la propriété Markov, il s'agit d'un modèle de Markov caché.

Cependant, [3] définit la différence entre les modèles d'espace d'état et les modèles de Markov cachés comme étant liés aux caractéristiques de l'état latent. Ici, un modèle de Markov caché traite des états discrets tandis que les modèles d'espace d'états traitent des états continus; sinon, ils sont conceptuellement identiques.

Il me semble que ce sont deux définitions très différentes. Sous l'un, un modèle de Markov caché est un sous-type de modèle d'espace d'état, tandis que sous l'autre, ils ne sont que des instanciations différentes d'une classe plus large de modèles de processus cachés. Laquelle de ces réponses est correcte? Mon intuition m'indique de suivre [3] par opposition à [2], mais je ne trouve pas de source faisant autorité qui le supporte.

3) Qu'est-ce qu'un "modèle de transition de Markov"?

Un autre terme qui est apparu dans de nombreuses sources est "modèle de transition de Markov". Je n'ai pas pu trouver cette phrase dans aucun manuel, mais elle apparaît beaucoup dans les articles de revues (branchez-la simplement sur Google pour confirmer). Je n'ai pas pu trouver une définition rigoureuse du terme (chaque papier que je trouve cite un autre papier, qui en cite un autre, etc., m'envoyant dans un trou de lapin PubMed qui ne mène nulle part sain d'esprit). Mon impression du contexte est que c'est un terme très général pour désigner tout modèle dans lequel l'objet de l'inférence est les transitions entre états qui suivent un processus de Markov, et qu'un modèle de Markov caché peut être considéré comme un type spécifique de modèle de transition de Markov. . [4], cependant, semble utiliser de manière interchangeable le modèle de transition, le modèle de Markov caché et plusieurs termes similaires.

D'un autre côté, [5] parle des modèles de transition de Markov et des modèles de Markov cachés un peu différemment. Les auteurs déclarent: "Les modèles de transition fournissent une méthode pour résumer la dynamique des répondants qui est utile pour interpréter les résultats de modèles de Markov cachés plus complexes". Je ne comprends pas tout à fait ce qu'ils entendent par cette phrase, et je ne trouve aucune justification à cela ailleurs dans le document. Cependant, ils semblent impliquer que les modèles de transition de Markov utilisent le temps comme variable continue, tandis que les modèles de Markov cachés utilisent le temps comme variable discrète (ils ne le disent pas directement; ils disent qu'ils utilisent le package R 'msm' pour s'adapter à la transition de Markov modèles, et décrivent plus tard «msm» comme traitant le temps en continu contrairement au package R pour les HMM).

4) Où se situent les autres concepts, par exemple les réseaux bayésiens dynamiques?

Selon Wikipedia, un réseau bayésien dynamique est une "généralisation de modèles de Markov cachés et de filtres de Kalman". Ailleurs, j'ai vu des modèles de Markov cachés définis comme un cas particulier d'un réseau bayésien dynamique, "dont l'état du monde entier est représenté par une seule variable d'état caché" ( Définition du système bayésien dynamique et sa relation avec HMM? ) . Je comprends généralement cette relation, et elle est bien expliquée par [6].

Cependant, j'ai du mal à comprendre comment cette relation s'inscrit dans le cadre plus large des choses. Autrement dit, étant donné cette relation entre les HMM et les DBN, comment les modèles d'espace d'état et les modèles de processus cachés sont-ils liés aux deux? Comment interagissent tous ces différents types de méthodes, étant donné qu'il semble y avoir de multiples "généralisations" de modèles de Markov cachés?

Les références:

[1] Tom M. Mitchell, Rebecca Hutchinson, Indrayana Rustandi. "Modèles de processus cachés". 2006. CMU-CALD-05-116. L'université de Carnegie Mellon.

[2] Oliver Giminez, Jean-Dominique Lebreton, Jean-Michel Gaillard, Rémi Choquet, Roger Pradel. "Estimation des paramètres démographiques à l'aide de modèles dynamiques de processus cachés". Biologie théorique des populations. 2012. 82 (4): 307-316.

[3] Barbara Engelhardt. "Modèles de Markov cachés et modèles d'espace d'état". STA561: Apprentissage automatique probabiliste. Université de Duke. http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf

[4] Jeroen K. Vermunt. «Modélisation de Markov latente à plusieurs niveaux en temps continu avec une application à l'analyse des données d'évaluation de l'humeur ambulatoire». Atelier de statistiques sociales. 2012. Université de Tilburg. http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf

[5] Ken Richardson, David Harte, Kristie Carter. "Comprendre les transitions en matière de santé et de main-d'œuvre: appliquer les modèles de Markov aux données longitudinales SoFIE". Série de recherches statistiques officielles. 2012.

[6] Zoubin Ghahramani. "Une Introduction aux Modèles de Markov Cachés et aux Réseaux Bayésiens". Journal of Pattern Recognition and Artificial Intelligence. 2001. 15 (1): 9-42.

machine-learning self-study hidden-markov-model Ryan Simmons
la source

Vous pouvez également essayer un réseau neuronal récurrent. En reconnaissance vocale, certains les ont utilisés avec succès en remplacement d'un HMM.

Albert

Merci pour la suggestion. Pour le moment, je préfère clarifier mes questions sur ces techniques avant de passer à l'étude de nouvelles.

Ryan Simmons

Ils se réfèrent à la même chose. Veuillez consulter scholarpedia.org/article/State_space_model Sangdon

@Ryan Simmons Je pense que ce serait une bonne idée de regarder les vidéos de mathématiquemonk (alias Jeffrey Miller) sur les chaînes de Markov et les modèles de Markov cachés sur YouTube.

JimBoy

Puisque vous avez probablement déjà remis votre thèse, voudriez-vous répondre vous-même à cette question? Pour ma part, je voudrais une réponse d'experts ici, qui s'applique probablement aussi aux près de 800 autres personnes qui ont lu cette question.

Ulf Aslak

Modèle de Markov caché vs modèle de transition de Markov vs modèle d'état-espace…?

Réponses: