Comment extraire du texte à partir d'images?
Je ne parle pas de fichiers numérisés, mais d'images de variétés de jardin, comme lorsque vous prenez une photo haute définition d'un tableau noir en classe, et il est bien écrit à la main; ou lorsque vous photographiez une page d'un livre de recettes et que vous souhaitez la recette au format texte.
Un logiciel gratuit et ouvert pour ça?
J'ai essayé tesseract et les résultats ont été horribles.
software-recommendation
images
ocr
Strapakowsky
la source
la source
Réponses:
L'acte d'extraire du texte à partir d'images est appelé
OCR
et Ubuntu a une page wiki dédiée à l' OCR . Depuis cette page:Outils OCR disponibles
Les référentiels Ubuntu Universe contiennent les outils OCR suivants:
Les référentiels multivers d'Ubuntu contiennent également:
Certains paquets sont obsolètes, mais de nouveaux non officiels peuvent être trouvés dans Alex_P PPA (PPA ajoutant le code: ppa: alex-p / notesalexp). Si vous n'avez jamais utilisé de PPA, vérifiez comment ajouter un logiciel à partir d'un PPA .
modifier: Comme indiqué dans le commentaire, Clara OCR existe également, mais il a été bloqué chez Hardy et leur site Web a 2009 comme dernière mise à jour.
la source
OCR
fonctionne mieux si vous savez comment l'image est créée et que vous maîtrisez très bien l'utilisation du logiciel que vous utilisez (ce dernier étant la raison pour laquelle je n'ai jamais pu l'utiliser).tesseract-ocr
serait le grand par rapport à tous les autres. Pour l'installation, exécutez la commandesudo apt-get install tesseract-ocr
.L'utilisation est
tesseract filename.jpg output.txt
.La commande ci-dessus va générer
output.txt
.Vous pourriez envisager de sélectionner la langue appropriée. Dans ce cas, vous devrez installer le
tesseract-ocr-LANG
package, où seLANG
trouve le code de langue ISO 639-2 à trois lettres . En ce moment, vous avez 123 langues sur 18.04 repo. Utilisez ensuite par exemple:la source