Je lis cet article: traducteur skype où ils utilisent des CD-DNN-HMM (réseaux neuronaux profonds dépendants du contexte avec des modèles de Markov cachés). Je peux comprendre l'idée du projet et l'architecture qu'ils ont conçue mais je ne comprends pas ce que sont les senones . Je cherchais une définition mais je n'ai rien trouvé
—Nous proposons un nouveau modèle dépendant du contexte (CD) pour la reconnaissance vocale à grand vocabulaire (LVSR) qui exploite les avancées récentes dans l'utilisation des réseaux de croyances profondes pour la reconnaissance téléphonique. Nous décrivons un réseau de neurones profond pré-formé modèle de Markov caché (DNN-HMM) l' architecture hybride que les trains de la DNN pour produire une distribution sur Senones (ex aequo des Etats triphones) en tant que sortie
S'il vous plaît, si vous pouviez me donner une explication à ce sujet, je l'apprécierais vraiment.
ÉDITER:
J'ai trouvé cette définition dans cet article :
Nous proposons de modéliser des événements subphonétiques avec des états de Markov et de traiter l'état des modèles phonétiques cachés de Markov comme notre unité sous-phonétique de base - la sénone . Un modèle de mot est une concaténation de sénones dépendantes de l'état et les sénones peuvent être partagées entre différents modèles de mots.
Je suppose qu'ils sont utilisés dans la partie du modèle de Markov caché de l'architecture du premier article. S'agit-il des États du HMM? Les sorties du DNN?
Réponses:
Voici ce que j'ai finalement compris:
Dans cette architecture, le DNN est utilisé pour transformer le bruit en téléphones.
La dernière couche du DNN est formée par tous les téléphones possibles, ayant un neurone de sortie par téléphone. L'activation de ces neurones est la probabilité que le bruit d'entrée correspondant à ce téléphone.
La combinaison de ces activations est l'entrée du modèle de Markov caché et établit les senones du HMM, qui obtient une liste de textes candidats au moyen d'un dictionnaire.
Les senones sont les états du HMM, dans l'image suivante, les senones seraient x1 x2 et x3.
Veuillez me corriger si j'ai dit quelque chose de mal, j'espère que cela vous aidera!
la source
Dans la reconnaissance vocale, nous incluons souvent un certain contexte sur les téléphones voisins lors de la modélisation d'un certain téléphone. Cela signifie que notre système connaît non seulement les téléphones pour
A
,B
et ainsi de suite, mais a plutôt un conceptE-then-A
,O-then-B
,X-then-A
et ainsi de suite.Ces unités dépendantes du contexte sont appelées senones dans la littérature , ce qui est bien sûr un mot inventé.
Pour les systèmes de reconnaissance vocale, ces senones égalent généralement les états HMM du modèle acoustique, qui peuvent être prédits par un réseau de neurones, si une approche hybride DNN / HMM pour la modélisation acoustique est utilisée.
Le terme Senones a été inventé par les développeurs de la boîte à outils de reconnaissance vocale Janus. Il a ensuite été adopté par Dong Yu et Li Deng pour leur livre ASR. C'était à l'époque où les NN n'étaient pas utilisés pour la modélisation acoustique. Par conséquent, le terme prête à confusion.
la source
"Senones" a été nommé par moi en 1992. Voir mon article ICASSP 1992: https://ieeexplore.ieee.org/document/225979 C'est juste un nom de fantaisie pour un groupe d'États Markov partagés, représentant des événements acoustiques similaires. Cela vient du contraste avec les fenones d'IBM, où le «f» signifie «cadre» et mon «s» signifie «état».
la source
L'idée initiale est venue de mon travail Eurospeech de 1991 (maintenant appelé Interspeech), où j'ai utilisé un regroupement descendant sur les États de Markov. Vous pouvez trouver mon rapport technique CMU en 1991 ici: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d
En 1992, j'ai décidé de le déplacer vers le clustering d'arbres afin que l'on puisse également modéliser des téléphones cd invisibles.
la source