La version courte de la question: Je recherche un logiciel de reconnaissance vocale fonctionnant sous Linux, doté d’une précision et d’une convivialité décentes. Toute licence et prix est correct. Il ne devrait pas être limité aux commandes vocales, car je veux pouvoir dicter du texte.
Plus de détails:
J'ai essayé de manière insatisfaisante les points suivants:
- CMU Sphinx
- CVoiceControl
- Oreilles
- Julius
- Kaldi (par exemple, serveur Kaldi GStreamer )
- IBM ViaVoice (utilisé sur Linux mais a été arrêté il y a plusieurs années)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- crier
- silvius (construit sur la boîte à outils de reconnaissance vocale Kaldi)
- Simon écoute
- ViaVoice / Xvoice
- Vin + Dragon NaturallySpeaking + NatLink + libellule + damselfly
- https://github.com/DragonComputer/Dragonfire : accepte uniquement les commandes vocales
Toutes les solutions Linux natives mentionnées ci-dessus ont à la fois une précision et une facilité d'utilisation médiocres (ou certaines n'autorisent pas la dictée en texte libre mais seulement les commandes vocales). Par faible précision, j'entends une précision bien inférieure à celle du logiciel de reconnaissance vocale que j'ai mentionné ci-dessous pour d'autres plates-formes. Quant à Wine + Dragon NaturallySpeaking, selon mon expérience, il ne cesse de planter et je ne semble pas être le seul à avoir de tels problèmes, malheureusement.
J'utilise Dragon NaturallySpeaking sous Microsoft Windows, Apple Dictation et DragonDictate sous Apple Mac OS XI, sous Android, la reconnaissance vocale Google et sous iOS, la reconnaissance vocale intégrée Apple.
Baidu Research a publié hier le code de sa bibliothèque de reconnaissance vocale utilisant la classification connexionniste temporelle mise en œuvre avec Torch. Les points de repère de Gigaom sont encourageants, comme le montre la capture d'écran ci-dessous, mais je ne suis au courant d'aucun bon wrapper pour le rendre utilisable sans un certain codage (et un jeu de données d'entraînement volumineux):
Il existe des projets open source très alpha:
- https://github.com/mozilla/DeepSpeech (partie du projet Vaani de Mozilla: http://vaani.io ( miroir ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, un système permettant de contrôler un système Linux à l'aide de Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (à paraître par Google, mentionné à Interspeech 2018)
Je suis également conscient de cette tentative de suivi de l'état des arts et des résultats récents (bibliographie) sur la reconnaissance de la parole. ainsi que cette référence des API de reconnaissance vocale existantes .
Je connais Aenea , qui permet la reconnaissance vocale via Dragonfly sur un ordinateur pour envoyer des événements à un autre, mais cela a un coût en latence:
Je suis également conscient de ces deux conférences explorant l'option de reconnaissance vocale sous Linux:
- 2016 - The Eleventh HOPE: Codage à l'aide de la reconnaissance vocale Open Source (David Williams-King)
- 2014 - Pycon: Utiliser Python pour coder par voix (Tavis Rudd)
la source
Réponses:
À l'heure actuelle, j'essaie d'utiliser KDE Connect en combinaison avec la reconnaissance vocale Google sur mon smartphone Android.
KDE connect vous permet d’utiliser votre appareil Android en tant que périphérique d’entrée pour votre ordinateur Linux (il existe également d’autres fonctionnalités). Vous devez installer l'application KDE Connect à partir du Google Play Store sur votre smartphone / tablette et installer kdeconnect et indicateur-kdeconnect sur votre ordinateur Linux. Pour les systèmes Ubuntu, l'installation se déroule comme suit:
L'inconvénient de cette installation est qu'elle installe un ensemble de packages KDE dont vous n'avez pas besoin si vous n'utilisez pas l'environnement de bureau KDE.
Une fois que votre appareil Android est couplé à votre ordinateur (ils doivent être sur le même réseau), vous pouvez utiliser le clavier Android, puis cliquer / appuyer sur le micro pour utiliser la reconnaissance vocale Google. Au fur et à mesure que vous parlez, du texte commence à apparaître partout où votre curseur est actif sur votre ordinateur Linux.
En ce qui concerne les résultats, ils sont un peu mitigés pour moi car je rédige actuellement un document technique sur l'astrophysique et que la reconnaissance vocale de Google se débat avec le jargon que vous ne lisez pas habituellement. N'oubliez pas non plus qu'il faut déterminer la ponctuation ou la capitalisation appropriée.
la source
Pour l'instant, seul le cahier Voice fonctionne sous Linux.
la source
En tant que Linuxer supplémentaire cherchant un programme utile de dictée (dictée), j’ai jeté un coup d’œil dans speechpad.pw:
Inconvénients:
Ainsi, speechpad.pw est une source très exclusive, à la fois fermée et liée à Google, que nous connaissons tous en tant que collecteur de métadonnées, informations personnelles et contenus personnels sans sommeil.
Ces inconvénients en font une application incontournable pour moi bien que la reconnaissance de la parole elle-même fonctionne très bien - bien mieux que tout ce que j'ai vu jusqu'à présent.
la source
L'application Chrome "VoiceNote II" ( http://voicenote.in/ ) fonctionne parfaitement sur ma machine Xubuntu 16.04. Aucune formation vocale requise et la configuration était simple. Une recherche pour le trouver, un clic pour installer, un clic pour créer un raccourci et pour le lier au Bureau.
la source
Je suggère d'utiliser dragon sur votre téléphone ou votre tablette, puis de vous envoyer le texte par courrier électronique. C'est un frein mais cela fonctionne et est très précis. Si vous insistez pour utiliser Linux à cet effet, un deuxième écran vous facilitera grandement la tâche de copier-coller.
Je n'ai pas essayé cela, mais vous pourrez peut-être utiliser ou adapter le programme de conversation Bluetooth Python avec dragon sur votre tablette / téléphone. Il peut également y avoir des applications de clavier à distance pour appareils mobiles pouvant prendre en charge la saisie de dictée.
Je vais expérimenter et essayer de vous revenir avec quelque chose de plus définitif.
la source
J'utilise l'application KD Connect. cela fonctionne assez efficacement! Je suis capable de garder les yeux sur l'écran tout en parlant avec le téléphone sur le bureau. Le seul inconvénient est que cela se fait via le clavier de Google. ce n'est ni gratuit, ni natif, ni open source.Ce commentaire a été posté sans aucune correction, ni de type
la source
Vous pouvez utiliser la synthèse vocale dans l’application Linux. Cette application utilise Google Speech Api et le module d’intégration binaire pour Linux 32 ou 64 bits. Vous pouvez voir une brève présentation de l’ utilisation des outils speechpad.pw dans Ubuntu.
la source