Existe-t-il une application existante pour échantillonner la voix de quelqu'un et l'utiliser pour moduler une autre voix ou synthétiser un texte pour ressembler à l'original?
Par exemple, cette démo de synthèse vocale par AT&T vous permet de choisir une voix et une langue parmi les préréglages qui, je suppose, sont basés sur une voix humaine qui a été échantillonnée.
Comment appelez-vous ce processus? Est-ce de la modulation vocale? Synthèse vocale?
modulation
voice
clapas
la source
la source
Réponses:
Une première note: la plupart des systèmes de synthèse vocale modernes, comme celui d'AT & T auquel vous avez lié, utilisent la synthèse vocale concaténative . Cette technique utilise une grande base de données d'enregistrements de la voix d'une personne prononçant une longue collection de phrases - sélectionnées de manière à ce que le plus grand nombre de combinaisons de phonèmes soit présent. La synthèse d'une phrase peut être faite simplement en enchaînant des segments de ce corpus - le bit difficile rend le enchaînement transparent et expressif.
Il y a deux gros obstacles si vous voulez utiliser cette technique pour faire dire au président Obama des mots embarrassants:
Votre intuition que c'est une solution possible est valide - à condition que vous ayez le budget pour s'attaquer à ces deux problèmes.
Heureusement, il existe d'autres techniques qui peuvent fonctionner avec moins de supervision et moins de données. Le domaine de la synthèse vocale intéressé à «simuler» ou «imiter» une voix à partir d'un enregistrement est appelé conversion vocale . Vous avez un enregistrement A1 du locuteur cible A disant la phrase 1, et un enregistrement B2 du locuteur source B disant la phrase 2, vous visez à produire un enregistrement A2 du locuteur A disant la phrase 2, éventuellement avec accès à un enregistrement B1 du locuteur B reproduisant avec sa voix le même énoncé que le locuteur cible.
Les grandes lignes d'un système de conversion vocale sont les suivantes:
J'insiste sur le fait que cela fonctionne à un niveau bien inférieur à celui de la reconnaissance vocale sur B2, puis à la réalisation de TTS en utilisant la voix d'A1 comme corpus.
Diverses techniques statistiques sont utilisées pour les étapes 1 et 2 - GMM ou VQ étant les plus courantes. Différents algorithmes d'alignement sont utilisés pour la partie 2 - c'est la partie la plus délicate, et il est évidemment plus facile d'aligner A1 vs B1, que A1 vs B2. Dans le cas le plus simple, des méthodes comme Dynamic Time Warping peuvent être utilisées pour effectuer l'alignement. Comme pour l'étape 4, les transformations les plus courantes sont des transformations linéaires (multiplication matricielle) sur des vecteurs de caractéristiques. Des transformations plus complexes permettent des imitations plus réalistes mais le problème de régression pour trouver la cartographie optimale est plus complexe à résoudre. Enfin, comme pour l'étape 5, la qualité de la resynthèse est limitée par les fonctionnalités utilisées. Les LPC sont généralement plus faciles à gérer avec une méthode de transformation simple (prendre la trame de signal -> estimer le résidu et le spectre LPC -> si nécessaire le décalage de hauteur tonale -> appliquer le spectre LPC modifié au résidu modifié). Utiliser une représentation de la parole qui peut être inversée dans le domaine temporel et qui offre une bonne séparation entre prosodie et phonèmes est la clé ici! Enfin, à condition d'avoir accès à des enregistrements alignés des locuteurs A et B disant la même phrase, il existe des modèles statistiques qui abordent simultanément les étapes 1, 2, 3 et 4 dans une seule procédure d'estimation de modèle.
Je pourrais revenir avec une bibliographie plus tard, mais un très bon endroit pour commencer à comprendre le problème et le cadre général utilisé pour le résoudre est Stylianou, Moulines et Cappé "Un système de conversion vocale basé sur une classification probabiliste et une harmonique plus le modèle de bruit ".
Il n'y a à ma connaissance aucun logiciel de conversion vocale largement répandu - seulement un logiciel modifiant les propriétés de la voix source - comme les paramètres de hauteur et de longueur des voies vocales (par exemple, le transformateur IRCAM TRAX) - avec lequel vous devez jouer dans l'espoir de faire votre enregistrer le son plus près de la voix cible.
la source
Vous pouvez utiliser quelque chose comme MorphVox . Voici une démonstration. Le processus est appelé morphing ou conversion de la voix. Si vous êtes intéressé par les aspects techniques, un article récent que vous pouvez étudier est la conversion vocale utilisant la régression des moindres carrés partiels du noyau dynamique .
la source
Je cherche la même chose, mais cela ne peut pas être fait. Il y a une entreprise en Écosse appelée CereProc qui fait de la modélisation vocale, mais ils ont besoin de quelqu'un dans leur laboratoire pour enregistrer des heures d'audio et le coût de modélisation d'une seule voix est d'environ 30 000 USD.
la source
Ce que vous recherchez s'appelle un vocodeur.
Avez-vous essayé le vocodeur d'Audcity? Audacity peut être téléchargé à partir de: http://audacity.sourceforge.net/download . Une démo sur la façon de l'utiliser peut être trouvée à https://www.youtube.com/watch?v=J_rPEmJfwNs .
la source