Je suis intrigué par le concept d'un modèle de Markov à entropie maximale (MEMM) et je songe à l'utiliser pour un marqueur de partie de la parole (POS). En ce moment, j'utilise un classificateur conventionnel d'entropie maximale (ME) pour baliser chaque mot individuel. Cela utilise un certain nombre de fonctionnalités, y compris les deux balises précédentes.
Les MEMM utilisent l'algorithme de Viterbi pour trouver le chemin optimal à travers la chaîne de Markov (c'est-à-dire pour trouver un ensemble optimal complet de balises pour la phrase plutôt que des optimums individuels pour chaque mot). En lisant à ce sujet, cela semble avoir une merveilleuse élégance et simplicité. Cependant, chaque étape ne repose que sur les "résultats" de l'étape précédente (c'est-à-dire selon une chaîne de Markov).
Cependant, mon modèle ME utilise les deux étapes précédentes (c'est-à-dire les balises des deux mots précédents). Il semble que j'ai deux approches possibles:
Comme avec une implémentation Viterbi conventionnelle, utilisez un ensemble de chemins stockés selon une étape (la précédente). Mon classificateur ME utiliserait ceci et une étape «gelée» avant cela (figée dans le chemin considéré) pour produire la fonction de transfert.
Ou j'écris l'algorithme pour suivre deux étapes. Ceci est plus compliqué et ne serait plus un vrai modèle de Markov car chaque fonction de transfert (c'est-à-dire du modèle ME) dépendrait des deux étapes précédentes et non d'une étape.
Il me semble que le second sera plus précis, même s'il sera plus compliqué.
Je n'ai pas encore trouvé d'exemples de cela lors de ma recherche documentaire. At-il été essayé? L'approche en deux étapes a-t-elle amélioré la précision globale?
la source