La reconnaissance vocale n'est pas aussi complexe d'un exemple que vous le pensez.
Tout d'abord, imaginez créer une chaîne de Markov (MC) qui effectue la reconnaissance de texte. Votre programme lit un tas de texte (parfait, sans erreur) et calcule les états (mots) et les changements d'état (mots suivants). On dirait que vous avez compris cela. Vous pouvez maintenant générer du texte, ou donner du texte, prédire le mot suivant en utilisant les états et les probabilités de transition de votre MC.
Imaginez maintenant que vous souhaitez utiliser votre MC avec la parole. Vous aurez simplement des gens qui liront du texte similaire à votre MC et vous êtes prêt, non? Eh bien ... Sauf qu'ils vont prononcer les mots différemment: là où le texte écrit dit "pomme de terre", vous entendrez en fait "po-TAY-toh" et "po-TAH-toh" et "pu-TAY -à ", etc. Et vice-versa: le texte" mangé "et" huit "représentent deux états différents, mais sont (généralement) prononcés de la même manière.
Votre algorithme ne voit plus les états sous-jacents (mots), il voit une distribution probabiliste des prononciations pour chaque mot. Votre MC d'origine est caché derrière les prononciations, et maintenant votre modèle doit être à deux couches.
Ainsi, vous pourriez faire en sorte que de nombreuses personnes lisent à haute voix le texte que vous avez utilisé pour votre formation d'origine, vous pourriez obtenir une distribution des prononciations pour chaque mot, puis combiner votre modèle d'origine avec le modèle de prononciation et vous avez un modèle de Markov caché ( un HMM).
La plupart des problèmes du monde réel seront ainsi, car le monde réel a tendance à être bruyant. Vous ne saurez pas réellement dans quel état se trouve quelque chose. Au lieu de cela, vous obtiendrez une variété d'indicateurs pour chaque état: parfois le même indicateur pour différents états ("mangé" et "huit") et parfois différents indicateurs pour le même état ("pu-TAY-toe" et "pah-tah-TOE"). Par conséquent, les HMM conviennent mieux aux problèmes du monde réel.
[Deux notes latérales: 1) la reconnaissance vocale réelle fonctionne au niveau du phonème, pas au niveau des mots, et 2) je crois que les HMM étaient le roi de la colline pour la reconnaissance vocale, mais ont récemment été détrônés par les réseaux de neurones profonds.]