Recommandations du logiciel de reconnaissance optique de caractères?

15

J'ai vu des ebooks / papiers qui ont apparemment été scannés à partir de leurs versions papier mais le texte des ebooks / papiers peut être étonnamment copié. Je suppose que les versions directement numérisées doivent avoir été traitées par certains logiciels de reconnaissance optique de caractères.

J'aimerais donc savoir quels sont les logiciels de reconnaissance optique de caractères recommandés? Surtout ceux qui sont soit pour Ubuntu, soit gratuits? Si ceux pour Windows sont bien plus performants, faites-le moi savoir également.

Je suis particulièrement intéressé par les OCR qui peuvent accepter un fichier pdf numérisé en entrée et toujours produire en sortie un autre fichier pdf qui ressemble à celui en entrée mais avec son texte copiable.

Merci et salutations!

Veuillez limiter un logiciel par réponse

Tim
la source

Réponses:

10

Tesseract OCR Installer Tesseract OCR

Le moteur d'origine a été développé à la fin des années 80 par HP et IBM, mais il s'est avéré être l'un des meilleurs logiciels de reconnaissance oculaire que j'ai utilisés. Il a récemment subi de nombreuses mises à jour du moteur et est devenu l'un des outils d'OCR les plus complets du marché. Surclassant par rapport à la plupart des autres outils d'OCR (avec quelque chose dans le 90 centile supérieur des correspondances de texte), il peut facilement transformer la face-type de document standard en texte.

Ce qui suit est un exemple:

tesseract ScannedDocument.png out

Produira un fichier appelé out.txt

Dennis
la source
Merci! Je n'ai pas vu que Tesseract supporte la sortie pdf. Le savez-vous?
StackExchange for All du
@Tim, nativement, je ne crois pas que Tesseract supporte de nombreux formats d'entrée / sortie. Cependant, comme le mentionne la réponse de JanC, gscan2pdf utilise Tesseract pour l'OCR, et comme son nom l'indique, il prend en charge la sortie PDF.
Tim Lytle du
Notez que l'OCR signifie Optical Character Recognition: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez
8

Un autre projet qui devrait pouvoir le faire est gscan2pdf

sudo apt-get install gscan2pdf

Ce projet peut également utiliser Tesseract, ainsi que d'autres outils OCR open source.

Mark Kirby
la source
3

Je ne connais pas d'OCR pour Ubuntu, mais pour Windows il y en a un qui a les fonctionnalités dont vous avez besoin. C'est ABBYY FineReader c'est la page mais elle n'est pas gratuite

vicmp3
la source
1
J'ai utilisé FineReader exactement comme Tim le souhaite (pour ouvrir des PDF protégés)
Extender
3

Une solution gratuite existe dans les dépôts , CunieForm (et YAGF comme interface Gnome pour cela)

Extenseur
la source
Merci! CunieForm prend-il en charge le format PDF en tant que formats d'entrée et de sortie? Je ne l'ai pas vu sur sa page Wikipedia et sa page officielle.
StackExchange for All du
Peut-être que non, mais diviser un PDF en une série de TIFF est une tâche simple de toute façon :)
Extender
3

Il semble que le projet Decapod exporte ou exporte au format PDF, donc Tesseract doit en quelque sorte exporter les informations nécessaires pour savoir où a été trouvé le texte.

JanC
la source
1

Adobe Acrobat (pas un lecteur, pas une application gratuite) est capable d'OCR-ing un document PDF numérisé et d'ajouter une couche de texte invisible au-dessus de l'image, afin que le texte puisse être sélectionné et copié. Malheureusement, je ne l'ai pas à portée de main pour vérifier où se trouve exactement cette fonctionnalité dans l'interface utilisateur d'Acrobat, mais je l'ai utilisée avec succès plusieurs fois dans le même but que vous l'avez mentionné.

Et oui, c'est un logiciel Windows, pas Linux, mais selon la base de données d'application Wine HQ, il fonctionne sous Wine .

Serge Broslavsky
la source
1

Le meilleur logiciel d'OCR est généralement intégré aux imprimantes / scanners / copieurs. Le Canon IRC 3880 de mon bureau peut produire de superbes fichiers PDF OCR plus facilement et plus rapidement que n'importe quel programme de bureau que je connais. Placez le livre sur le plateau (non relié), sélectionnez votre adresse e-mail, appuyez sur le bouton vert.

La plupart des pdf de l'OCR que vous pouvez trouver sur le net proviennent de machines similaires. Le problème est que le prix est trop élevé pour un usage domestique (environ 12000 euros IRC).

Javier Rivera
la source
1

OCRFeeder

Il s'agit d'une application graphique.

entrez la description de l'image ici

Il utilise tesseract-ocr ou ocrad comme moteur OCR.

Peut installer avec Software Center ou avec,

sudo apt-get install ocrfeeder
user224082
la source