J'ai vu des ebooks / papiers qui ont apparemment été scannés à partir de leurs versions papier mais le texte des ebooks / papiers peut être étonnamment copié. Je suppose que les versions directement numérisées doivent avoir été traitées par certains logiciels de reconnaissance optique de caractères.
J'aimerais donc savoir quels sont les logiciels de reconnaissance optique de caractères recommandés? Surtout ceux qui sont soit pour Ubuntu, soit gratuits? Si ceux pour Windows sont bien plus performants, faites-le moi savoir également.
Je suis particulièrement intéressé par les OCR qui peuvent accepter un fichier pdf numérisé en entrée et toujours produire en sortie un autre fichier pdf qui ressemble à celui en entrée mais avec son texte copiable.
Merci et salutations!
Veuillez limiter un logiciel par réponse
Un autre projet qui devrait pouvoir le faire est gscan2pdf
Ce projet peut également utiliser Tesseract, ainsi que d'autres outils OCR open source.
la source
Je ne connais pas d'OCR pour Ubuntu, mais pour Windows il y en a un qui a les fonctionnalités dont vous avez besoin. C'est ABBYY FineReader c'est la page mais elle n'est pas gratuite
la source
Une solution gratuite existe dans les dépôts , CunieForm (et YAGF comme interface Gnome pour cela)
la source
Il semble que le projet Decapod exporte ou exporte au format PDF, donc Tesseract doit en quelque sorte exporter les informations nécessaires pour savoir où a été trouvé le texte.
la source
Adobe Acrobat (pas un lecteur, pas une application gratuite) est capable d'OCR-ing un document PDF numérisé et d'ajouter une couche de texte invisible au-dessus de l'image, afin que le texte puisse être sélectionné et copié. Malheureusement, je ne l'ai pas à portée de main pour vérifier où se trouve exactement cette fonctionnalité dans l'interface utilisateur d'Acrobat, mais je l'ai utilisée avec succès plusieurs fois dans le même but que vous l'avez mentionné.
Et oui, c'est un logiciel Windows, pas Linux, mais selon la base de données d'application Wine HQ, il fonctionne sous Wine .
la source
Le meilleur logiciel d'OCR est généralement intégré aux imprimantes / scanners / copieurs. Le Canon IRC 3880 de mon bureau peut produire de superbes fichiers PDF OCR plus facilement et plus rapidement que n'importe quel programme de bureau que je connais. Placez le livre sur le plateau (non relié), sélectionnez votre adresse e-mail, appuyez sur le bouton vert.
La plupart des pdf de l'OCR que vous pouvez trouver sur le net proviennent de machines similaires. Le problème est que le prix est trop élevé pour un usage domestique (environ 12000 euros IRC).
la source
Mon logiciel OCR en ligne gratuit préféré est proposé par Ricoh Innovations. Il s'agit d'un programme bêta, mais je trouve qu'il fonctionne assez bien. Découvrez-le sur: http://beta.rii.ricoh.com/betalabs/content/document-conversion
la source
OCRFeeder
Il s'agit d'une application graphique.
Il utilise tesseract-ocr ou ocrad comme moteur OCR.
Peut installer avec Software Center ou avec,
la source
FineReader a également une version en ligne. Il prétend être en mesure de fichiers PDF processus en tant que format d'entrée --- http://finereader.abbyyonline.com/en/Help/Faq/
la source