Comment extraire du texte à partir d'images?

25

Comment extraire du texte à partir d'images?

Je ne parle pas de fichiers numérisés, mais d'images de variétés de jardin, comme lorsque vous prenez une photo haute définition d'un tableau noir en classe, et il est bien écrit à la main; ou lorsque vous photographiez une page d'un livre de recettes et que vous souhaitez la recette au format texte.

Un logiciel gratuit et ouvert pour ça?

J'ai essayé tesseract et les résultats ont été horribles.

Strapakowsky
la source
J'ai besoin d'un OCR qui prend en charge le bengali et l'anglais simultanément.
alhelal

Réponses:

26

L'acte d'extraire du texte à partir d'images est appelé OCRet Ubuntu a une page wiki dédiée à l' OCR . Depuis cette page:

Outils OCR disponibles

Les référentiels Ubuntu Universe contiennent les outils OCR suivants:

  1. gocr - OCR en ligne de commande
  2. fuzzyocr - plugin spamassassin pour vérifier les pièces jointes des images
  3. libhocr0 - OCR hébreu
  4. ocrad - Programme de reconnaissance optique de caractères
  5. ocrfeeder - Analyse de la mise en page des documents et système de reconnaissance optique des caractères
  6. ocropus - analyse de documents et système OCR
  7. tesseract-ocr

Les référentiels multivers d'Ubuntu contiennent également:

  1. cunéiforme - système OCR multilingue

Certains paquets sont obsolètes, mais de nouveaux non officiels peuvent être trouvés dans Alex_P PPA (PPA ajoutant le code: ppa: alex-p / notesalexp). Si vous n'avez jamais utilisé de PPA, vérifiez comment ajouter un logiciel à partir d'un PPA .

modifier: Comme indiqué dans le commentaire, Clara OCR existe également, mais il a été bloqué chez Hardy et leur site Web a 2009 comme dernière mise à jour.

Rinzwind
la source
Avez-vous de l'expérience en utilisant l'un de ceux-ci pour les exemples que j'ai décrits? Je suis devenu un peu sceptique quant aux outils ocr habituels pour eux. Le numéro 7 sur la liste est celui que j'ai essayé et qui était tout simplement horrible.
Strapakowsky
Si je me souviens bien, j'ai aussi essayé gocr, avec des résultats terribles équivalents. Si vous avez essayé avec succès l'une de ces méthodes, quelle syntaxe avez-vous utilisée? Merci.
Strapakowsky
Pas du tout! Je n'ai jamais dérangé avec l'OCR: D La recherche de Freshmeat montre Clara OCR et tesseract-ocr;) ( freshmeat.net/search/… )
Rinzwind
Ai-je tort si je dis qu'une utilisation réussie de l'OCR nécessite une connaissance du processus et une configuration minutieuse pour s'adapter à l'image particulière à numériser? Ainsi, si j'ai raison, de mauvais résultats peuvent être dus à l'utilisateur et non au logiciel.
NN
OCRfonctionne mieux si vous savez comment l'image est créée et que vous maîtrisez très bien l'utilisation du logiciel que vous utilisez (ce dernier étant la raison pour laquelle je n'ai jamais pu l'utiliser).
Rinzwind
18

tesseract-ocrserait le grand par rapport à tous les autres. Pour l'installation, exécutez la commande sudo apt-get install tesseract-ocr.

L'utilisation est tesseract filename.jpg output.txt.

La commande ci-dessus va générer output.txt.

Vous pourriez envisager de sélectionner la langue appropriée. Dans ce cas, vous devrez installer le tesseract-ocr-LANGpackage, où se LANGtrouve le code de langue ISO 639-2 à trois lettres . En ce moment, vous avez 123 langues sur 18.04 repo. Utilisez ensuite par exemple:

tesseract mySpanishText.jpg output -l spa
Sudhir Belagali
la source
Hé, donc cela fonctionne mais n'est pas précis ou je dirais plutôt que c'est 80-85% précis. Comme exemple pour cette image: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , il a foiré $ sign et aussi la plupart des crochets. Carré, rond, bouclé, tous les crochets sont un problème, ils ne sont jamais extraits correctement. Connaissez-vous un correctif?
Milan Chheda