c'est une question qui m'intéresse depuis un certain temps maintenant, principalement parce que je travaille moi-même sur la réduction du bruit pour un système de reconnaissance vocale existant.
La plupart des articles sur les techniques de réduction du bruit semblent se concentrer sur la façon de rendre la parole plus intelligible pour les humains, ou sur la façon d'améliorer les termes vagues comme «qualité de la parole».
Je suis sûr qu'en utilisant des critères comme ceux-ci, vous pouvez identifier des filtres qui rendent les signaux vocaux bruyants plus faciles à écouter pour les humains. Cependant, je ne suis pas sûr que ces critères puissent simplement être adaptés lorsque vous essayez d'évaluer des signaux vocaux qui ont été débruités pour améliorer la précision du système de reconnaissance vocale.
Je ne trouve pas vraiment d'articles qui traitent de cette différence. L'intelligibilité et la qualité de la parole sont-elles corrélées avec la précision des systèmes de reconnaissance vocale? Existe-t-il des mesures objectives qui peuvent évaluer la qualité d'un signal de parole débruité pour un système de reconnaissance vocale, par exemple s'il reçoit également le discours propre d'origine? Ou est-ce le seul moyen de savoir à quel point votre technique de réduction du bruit est bonne, de former le système de reconnaissance vocale sur les données débruitées et de vérifier la précision?
Je serais heureux si quelqu'un pouvait m'orienter dans la bonne direction, ou peut-être donner des articles qui en discuteraient. Merci d'avance!