En quoi la réduction du bruit pour la reconnaissance vocale diffère-t-elle de la réduction du bruit qui est censée rendre la parole plus «intelligible» pour les humains?

10

c'est une question qui m'intéresse depuis un certain temps maintenant, principalement parce que je travaille moi-même sur la réduction du bruit pour un système de reconnaissance vocale existant.

La plupart des articles sur les techniques de réduction du bruit semblent se concentrer sur la façon de rendre la parole plus intelligible pour les humains, ou sur la façon d'améliorer les termes vagues comme «qualité de la parole».

Je suis sûr qu'en utilisant des critères comme ceux-ci, vous pouvez identifier des filtres qui rendent les signaux vocaux bruyants plus faciles à écouter pour les humains. Cependant, je ne suis pas sûr que ces critères puissent simplement être adaptés lorsque vous essayez d'évaluer des signaux vocaux qui ont été débruités pour améliorer la précision du système de reconnaissance vocale.

Je ne trouve pas vraiment d'articles qui traitent de cette différence. L'intelligibilité et la qualité de la parole sont-elles corrélées avec la précision des systèmes de reconnaissance vocale? Existe-t-il des mesures objectives qui peuvent évaluer la qualité d'un signal de parole débruité pour un système de reconnaissance vocale, par exemple s'il reçoit également le discours propre d'origine? Ou est-ce le seul moyen de savoir à quel point votre technique de réduction du bruit est bonne, de former le système de reconnaissance vocale sur les données débruitées et de vérifier la précision?

Je serais heureux si quelqu'un pouvait m'orienter dans la bonne direction, ou peut-être donner des articles qui en discuteraient. Merci d'avance!

marlonfl
la source

Réponses:

2

Je ne trouve pas vraiment d'articles qui traitent de cette différence.

Il existe des livres entiers sur le sujet:

Reconnaissance vocale automatique robuste 1ère édition

L'intelligibilité et la qualité de la parole sont-elles corrélées avec la précision des systèmes de reconnaissance vocale?

Généralement non, la réduction du bruit corrompt généralement les fonctionnalités de manière imprévisible et réduit la précision de la reconnaissance vocale.

Existe-t-il des mesures objectives qui peuvent évaluer la qualité d'un signal de parole débruité pour un système de reconnaissance vocale, par exemple s'il reçoit également le discours propre d'origine? Ou est-ce le seul moyen de savoir à quel point votre technique de réduction du bruit est bonne, de former le système de reconnaissance vocale sur les données débruitées et de vérifier la précision?

Seconde. De plus, la réduction du bruit basée sur les fonctionnalités supprime réellement toutes les informations importantes du spectre afin que vous ne puissiez pas réparer la précision du système propre. Pour cette raison, l'approche moderne consiste à effectuer une formation multi-style sur des données bruyantes au lieu d'utiliser au préalable un algorithme de réduction du bruit. Cela se termine par une reconnaissance plus précise.

Nikolay Shmyrev
la source
Merci pour vos réponses. Je suppose que je ne cherchais pas les bons papiers. Je vais jeter un œil à ce livre.
marlonfl
Ok, si vous voulez des papiers, vous pouvez vérifier les résultats du défi CHIME-4, principalement l'état de l'art en ASR robuste.
Nikolay Shmyrev