Quelqu'un peut-il expliquer la normalisation moyenne de Cepstral, comment la propriété d'équivalence de la convolution affecte-t-elle cela? Faut-il faire le CMN dans la reconnaissance des conférenciers basée sur MFCC? Pourquoi la propriété de la convolution est le besoin fondamental du MFCC?
Je suis très nouveau dans ce traitement du signal. Veuillez aider
Réponses:
Juste pour être clair - cette propriété n'est pas fondamentale mais importante . C'est la différence fondamentale quand il s'agit d'utiliser DCT au lieu de DFT pour le calcul du spectre.
Pourquoi faisons-nous la normalisation moyenne Cepstral
Dans la reconnaissance des locuteurs, nous voulons supprimer tout effet de canal (réponse impulsionnelle des voies vocales, chemin audio, pièce, etc.). À condition que le signal d'entrée soit et que la réponse impulsionnelle du canal soit donnée par h [ n ] , le signal enregistré est une convolution linéaire des deux:x [ n ] h [ n ]
En prenant la transformée de Fourier, nous obtenons:
en raison de la propriété d'équivalence de convolution-multiplication de FT - c'est pourquoi c'est la propriété si importante de FFT à cette étape .
La prochaine étape dans le calcul du cepstre est de prendre le logarithme du spectre:
car: . Évidemment, q est la quefrence . Comme on peut le remarquer, en prenant le cepstre de convolution dans le domaine temporel, on se retrouve avec l'addition dans le domaine cepstral (quefrence).Journal( a b ) = loga + logb q
Qu'est-ce que la normalisation moyenne Cepstrale?
Nous savons maintenant que dans le domaine cepstral, toute distorsion convolutionnelle est représentée par l'addition. Supposons que tous soient stationnaires (ce qui est une hypothèse forte car le tractus vocal et la réponse des canaux ne changent pas) et la partie stationnaire du discours est négligeable. On peut observer que pour chaque i-ème trame, true est:
En prenant la moyenne sur toutes les images, nous obtenons
Définir la différence:
Nous nous retrouvons avec notre signal avec les distorsions de canal supprimées. Mettre toutes les équations ci-dessus dans un anglais simple:
La normalisation moyenne cepstrale est-elle nécessaire?
Ce n'est pas obligatoire, surtout lorsque vous essayez de reconnaître un haut-parleur dans un seul environnement. En fait, cela peut même détériorer vos résultats, car il est sujet aux erreurs dues au bruit additif:
Dans de mauvaises conditions SNR, le terme marqué peut dépasser l'estimation.
Bien que lorsque le CMS est exécuté, vous pouvez généralement gagner quelques pour cent supplémentaires. Si vous ajoutez à ce gain de performances des dérivées de coefficients, vous obtenez un véritable coup de pouce de votre taux de reconnaissance. La décision finale dépend de vous, d'autant plus qu'il existe de nombreuses autres méthodes utilisées pour améliorer les systèmes de reconnaissance vocale.
la source