Comment faire de la synthèse vocale en utilisant la ligne de commande?

Réponses:

125

Par ordre de popularité décroissante :

  • say convertit un texte en discours audible à l’aide du moteur de parole GNUstep.

    sudo apt-get install gnustep-gui-runtime
    say "hello"
    
  • festival système général de synthèse de la parole multilingue.

    sudo apt-get install festival
    echo "hello" | festival --tts
    
  • spd-say envoie une requête de sortie text-to-speech à un répartiteur de parole

    sudo apt-get install speech-dispatcher
    spd-say "hello"
    
  • espeak est un logiciel de synthèse vocale multilingue.

    sudo apt-get install espeak
    espeak "hello"
    
Sylvain Pineau
la source
13
spd-saysemble être pré-installé dans 14.04 et plus tard: releases.ubuntu.com/trusty/…
Ciro Santilli a lu un commentaire
3
En outre sudo pip install gTTS, vous pouvez également y accéder (Google Text to Speech / github.com/pndurette/gTTS ) . . gtts-cli "hello" -o hello.mp3mpg123 -gtts-cli "why, hello there" | mpg123 -
Elijah Lynn
malheureusement, spd-sayne semble pas pouvoir jouer simultanément, une seule fois
phil294
@ ElijahLynn ne fonctionne pas
Dims
espeak/ spd-sayest le meilleur pour les memes (les autres ne peuvent même pas prononcer le mot "meme" correctement). Le mieux, je peux dire, spd-sayutilise espeakcomme base (les voix ont le même son).
QwertyChouskie
18

espeak est un bon petit outil.

J'aime juste jouer avec cela dans une ligne de commande. Vous constaterez peut-être que cela est en conflit avec Pulseaudio, alors j'utilise une version longue qui empêche de le configurer correctement.

sudo apt-get install espeak
espeak --stdout "this is a test" | paplay

espeak --help vous montrera les options pour calibrer la vitesse de lecture, le ton, la voix, etc.

Lorsque vous rédigez vos notes, enregistrez-les sous forme de fichier texte, puis:

echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"

Vous pouvez ensuite jouer avec ffmeg et al pour compresser le contenu du format PCM en un format plus gérable, comme le format MP3 ou OGG. Mais c'est une autre histoire.

Oli
la source
1
très agréable, on peut également essayer l'interface utilisateur graphique pour espeak, espeak-gui.
Sabacon
14

De man spd-say:

NOM
       spd-say - envoie une requête de sortie texte-parole à un répartiteur de parole

SYNOPSIS
       spd-say [options] "du texte"

LA DESCRIPTION
       spd-say envoie une requête de sortie texte-parole au processus de répartition de la parole qui le gère et produit idéalement le résultat
       au système audio.

LES OPTIONS
       -r, --rate
              Définir le débit de la parole (entre -100 et +100, par défaut: 0)

       -p, --pitch
              Définir la hauteur du discours (entre -100 et +100, par défaut: 0)

       -i, --volume
              Réglez le volume (intensité) de la parole (entre -100 et +100, par défaut: 0)

Vous pouvez donc utiliser la synthèse vocale en suivant la commande suivante:

spd-say "<type text>"

Ex:

spd-say "Welcome to Ubuntu Linux"

Vous pouvez également définir le débit, la hauteur, le volume, etc., voir page de manuel.

Pandya
la source
3
spd-say -t female2 "text"rend supportable
scorpiodawg
6

Mbrola ne fonctionne plus depuis le 11.10.

Les outils SVOX (pico) sont faciles à installer, à utiliser et offrent des voix de bonne qualité dans Ubuntu. Installez-le:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Encore plus facilement, vous pouvez utiliser LibreOffice en combinaison avec les outils SVOX (pico) en installant l' extension "Read Text" et vous obtenez une "interface graphique" pour cet excellent logiciel TTS:

Configurez les options de Read Text Extension avec Tools - Add-ons - Read Selection .... Utilisez / usr / bin / python en tant que programme externe. Sélectionnez une option de ligne de commande incluant le jeton (PICO_READ_TEXT_PY).

Leoperbo
la source
4

Python Google Speach:

pip install google_speech

google_speech "Test the hello world"

Svox à partir d'Android:

apt-get install svox-pico

pico2wave --wave=test.wav "Test the hello world"
play test.wav

Svox Nanotts:

git clone https://github.com/gmn/nanotts.git
cd nanotts
make

./nanotts -v en-US "Test the hello world"

Liens - Wiki:

Comparaison de synthétiseurs vocaux

intika
la source
1
Pour installer et utiliser google_speechsur ubuntu 18.04 je devais installer python3-pipet libsox-fmt-mp3et utiliser pip3 install google_speech.
artm
3

Et encore une autre espeak IUG: gespeaker. Il utilise les deux espeaket les mbrolamoteurs. En outre, il a plus d'options que espeak-gui.

luri
la source
3

Ce qui suit n’est pas une solution FLOSS, mais vous en trouverez peut-être la peine. (c'est une solution de vin ),

Personnellement, je suis très féru de TTS, je l’utilise assez souvent ... par exemple. en écoutant un discours décousu que je ne prendrais jamais la peine de m'en tenir à une autre manière (parce que j'ai besoin de prendre une autre tasse de café ... :)

Quelques choses que j'ai découvertes en cours de route ... ou devrais-je dire, des choses que je n'ai pas découvertes en cours de route ... Pour parler franchement: chaque logiciel vocal de FOSS TTS que j'ai essayé est sous la moyenne et par conséquent inadapté à une écoute semi-prolongée ...

J'utilise actuellement NaturalVoices d'ATnT. Il n’est disponible que pour Windows (peut-être le Mac), mais il fonctionne sous wineUbuntu .. (il a un glytch mineur, où j’ai parfois besoin de cliquer sur le panneau lorsque je s’éloigne du lecteur ... C’est un mineur problème par rapport à l’avantage procuré par la qualité du discours de NatualVoices.

Certaines autres choses que j'ai trouvées pratiquement essentielles pour une expérience d'écoute semi-sensée sont: ...

  1. Ces programmes TTS ne sont pas intelligents (peut-être aussi intelligents qu’un jeune babouin). Ils ont donc besoin de toute l’aide qu’ils peuvent obtenir. et il y en a un (et un seul programme de lecture que j'ai trouvé qui aide grandement à cela .. L'application s'appelle ReadPlease (2003 Pro)... Elle vous permettait de modifier spécialement des mots et des groupes de mots à prononcer comme vous le souhaitez ... Il n’est en aucun cas parfait, mais pour moi, cela a fait la différence entre tout le processus étant utilisable et non utilisable ...

  2. Le discours dans Natural Voices est "ok", mais c'est un peu ennuyeux. Il existe également d’autres bons produits, mais ils sont tous destinés à Windows, malheureusement) ..
    Cela surprend parfois bien… mais OMG, au début, c’est pénible! .. donc # 2 est * patience ... et beaucoup de mises à jour de votre liste de "mots spéciaux" ... Par patience, je veux dire que vous vous êtes réellement habitué aux habitudes de discours de mon babouin particulier:) ... et par En passant, il y a actuellement environ 3000 mots qui sonnent suffisamment "Humain" pour ne plus me froisser lorsque je les entends.

    3 .. "Suivez la balle qui rebondit" ... Encore une fois, parce que la voix n’est jamais aussi bonne que celle d’un vrai orateur, il faut parfois clarifier les choses. Le programme Reader que j'utilise a une fonctionnalité pour laquelle je mets même en place avec son interface d'apparence maladroite .... Il a une option de mot "sélection de la lecture en cours" .. De nombreux lecteurs l'ont, mais ReadPlease continue d'activer la ligne actuelle centre de l’écran. C’est précieux pour pouvoir voir devant et derrière et relire rapidement ce que vous venez de manquer (le centrage automatique de la ligne courante est donc bon) ...

Eh bien, c’est mon expérience… je vais faire un café maintenant, et pendant que je le fais, je l’écouterai pour voir comment il se «lit»… .TTS est étonnamment bon à ramasser fautes de frappe (je fais beaucoup de fautes de frappe) ...

Si quelque chose d'aussi bon que ATnT NaturalVoices se présente sur le référentiel Ubuntu, je vais sauter à autre chose.

Voici un lien vers des exemples de Natural Voices : J'utilise "MIke"

Peter.O
la source
3

SVOX pico2wave

C'est ce que j'utilise. Et ça a l'air naturel, c'est facile à comprendre, ça reconnaît les Unités (m, ° C, kg, ...)

Voici mon premier post sur pico2wave

Texte naturel à la parole?

Tout ce que tu dois faire est:

Accédez au Centre de logiciel Ubuntu et recherchez "pico". Vous trouverez 4 ou 5 entrées avec "Small Footprint Ling ...". Installez-les.

Une utilisation possible de pico2wave est décrite dans ma première publication (suivez le lien ci-dessus).

Au revoir

utilisateur85321
la source
J'ai utilisé votre façon peut vous pls me dire comment obtenir une voix féminine douce naturl utilisant votre façon
user49557
3

Pour festival(la voix me semble plus naturelle):

sudo apt-get install festival

echo "hello" | festival --tts

Configuration du pitch et de la vitesse:

créer ~/.festivalrc:

(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100") (Parameter.set 'Audio_Method 'Audio_Command)

Voir aussi http://www.solomonson.com/content/ubuntu-linux-text-speech

Mise à jour: essayé sur un autre ordinateur Ubuntu. Il a fallu installer le moteur de parole anglais pour fonctionner correctement avec festival:

sudo apt-get install festvox-kallpc16k

Est également playune commande cli qui vient avec le soxpaquet:

sudo apt-get install sox

d9k
la source
2

Même si vous avez déjà accepté une réponse, je voulais mentionner festival, ce que j'aime beaucoup aussi. Cet article sur les forums Ubuntu contient beaucoup d’informations sur la manière de mettre en place de très belles voix.

frabjous
la source
2

Meet espeak-ng- Un logiciel de synthèse vocale multilingue:

espeak-ng "text to read"
espeak-ng -f "~/file to read"

Il utilise une voix anglaise par défaut, mais il existe de nombreuses autres voix pour d'autres langues et même des dialectes disponibles et peut être répertoriée avec espeak-ng --voices(pour tous) ou par exemple espeak-ng --voices=en(pour l'anglais). Ils peuvent être définis avec -vl’abréviation de la langue ou le nom du fichier, par exemple pour l’écossais ou le swahili:

espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili

Il existe de nombreuses autres options disponibles, par exemple -spour la vitesse et -wpour écrire la sortie dans un fichier wave, voir la page de manuel liée ci-dessous.

Lectures complémentaires

espeak-ng(“Ng” pour “next generation”) est une branche développée du espeaklogiciel de synthèse vocale original , voir le chapitre Historique sur Wikipedia . Les deux sont disponibles auprès des sources officielles via le package espeakou espeak-ngrespectivement.

dessert
la source
0

L'outil gTTS est idéal pour générer des fichiers audio à partir de texte. Il utilise l'API de synthèse vocale de Google Traduction et génère des fichiers MP3.
Etant donné qu’il utilise pippour l’installation, je vous recommande fortement d’installer Miniconda, puis condade le créer pour créer un environnement dans lequel vous pourrez installer gTTS. Vous pouvez télécharger Miniconda à partir d'ici:

https://docs.conda.io/en/latest/miniconda.html

Le référentiel GitHub pour gTTS est:

https://github.com/pndurette/gTTS

Et vous pouvez trouver la documentation de gTTS ici:

https://gtts.readthedocs.io/en/latest/

evaristegd
la source