Normalisation moyenne cepstrale

15

Quelqu'un peut-il expliquer la normalisation moyenne de Cepstral, comment la propriété d'équivalence de la convolution affecte-t-elle cela? Faut-il faire le CMN dans la reconnaissance des conférenciers basée sur MFCC? Pourquoi la propriété de la convolution est le besoin fondamental du MFCC?

Je suis très nouveau dans ce traitement du signal. Veuillez aider

mun
la source
Peut sans utiliser la banque de filtres, la conversion de la fréquence directement en melscale fonctionnera dans le processus MFCC?
violet

Réponses:

18

Juste pour être clair - cette propriété n'est pas fondamentale mais importante . C'est la différence fondamentale quand il s'agit d'utiliser DCT au lieu de DFT pour le calcul du spectre.

Pourquoi faisons-nous la normalisation moyenne Cepstral

Dans la reconnaissance des locuteurs, nous voulons supprimer tout effet de canal (réponse impulsionnelle des voies vocales, chemin audio, pièce, etc.). À condition que le signal d'entrée soit et que la réponse impulsionnelle du canal soit donnée par h [ n ] , le signal enregistré est une convolution linéaire des deux:X[n]h[n]

y[n]=X[n]h[n]

En prenant la transformée de Fourier, nous obtenons:

Oui[F]=X[F]H[F]

en raison de la propriété d'équivalence de convolution-multiplication de FT - c'est pourquoi c'est la propriété si importante de FFT à cette étape .

La prochaine étape dans le calcul du cepstre est de prendre le logarithme du spectre:

Oui[q]=JournalOui[F]=Journal(X[F]H[F])=X[q]+H[q]

car: . Évidemment, q est la quefrence . Comme on peut le remarquer, en prenant le cepstre de convolution dans le domaine temporel, on se retrouve avec l'addition dans le domaine cepstral (quefrence).Journal(uneb)=Journalune+Journalbq

Qu'est-ce que la normalisation moyenne Cepstrale?

Nous savons maintenant que dans le domaine cepstral, toute distorsion convolutionnelle est représentée par l'addition. Supposons que tous soient stationnaires (ce qui est une hypothèse forte car le tractus vocal et la réponse des canaux ne changent pas) et la partie stationnaire du discours est négligeable. On peut observer que pour chaque i-ème trame, true est:

Ouije[q]=H[q]+Xje[q]

En prenant la moyenne sur toutes les images, nous obtenons

1NjeOuije[q]=H[q]+1NjeXje[q]

Définir la différence:

Rje[q]=Ouije[q]-1NjOuij[q]=H[q]+Xje[q]-(H[q]+1NjXj[q])=Xje[q]-1NjXj[q]

Nous nous retrouvons avec notre signal avec les distorsions de canal supprimées. Mettre toutes les équations ci-dessus dans un anglais simple:

  • Calculer le cepstre
  • Soustrayez la moyenne de chaque coefficient
  • Divisez éventuellement par variance pour effectuer la normalisation moyenne cepstrale par opposition à la soustraction.

La normalisation moyenne cepstrale est-elle nécessaire?

Ce n'est pas obligatoire, surtout lorsque vous essayez de reconnaître un haut-parleur dans un seul environnement. En fait, cela peut même détériorer vos résultats, car il est sujet aux erreurs dues au bruit additif:

y[n]=X[n]h[n]+w[n]

Oui[F]=X[F]H[F]+W[F]

JournalOui[F]=Journal[X[F](H[F]+W[F]X[F])]=JournalX[F]+Journal(H[F]+W[F]X[F])

Dans de mauvaises conditions SNR, le terme marqué peut dépasser l'estimation.

Bien que lorsque le CMS est exécuté, vous pouvez généralement gagner quelques pour cent supplémentaires. Si vous ajoutez à ce gain de performances des dérivées de coefficients, vous obtenez un véritable coup de pouce de votre taux de reconnaissance. La décision finale dépend de vous, d'autant plus qu'il existe de nombreuses autres méthodes utilisées pour améliorer les systèmes de reconnaissance vocale.

jojek
la source
@mun: Heureux que cela ait aidé. Pourquoi ne pas marquer les réponses à vos questions comme acceptées afin de pouvoir supprimer les restrictions concernant les nouveaux utilisateurs?
jojek
@mun: Félicitations! Maintenant, vous publiez plus de liens, votez sur les questions et réponses + signalez les messages.
jojek
merci @jojek ..Je suis très nouveau dans tout cela, mais je suis content d'avoir résolu mon problème.
mun
@mun: Alors je vous suggère définitivement de faire un petit tour
jojek
Dans la dernière réponse, je n'arrive pas à comprendre ce que signifie "ajouter à ce gain de performance des dérivées de coefficients". Pouvez-vous donner quelques explications simples? Merci beaucoup
Shuai Wang