J'ai un flux de travail par lequel je numérise des documents papier en PDF consultables à l'aide d'un scanner de documents Fujitsu ScanSnap S500 . Je ne suis pas un grand fan du logiciel fourni, mais il est simple à utiliser: placez une pile de papier en haut, appuyez sur le bouton vert et un PDF consultable sort.
Maintenant, j'aimerais faire quelque chose de similaire sur Linux (Ubuntu 10.10). Le scanner est pris en charge hors de la boîte.
J'ai regardé gscan2pdf
et XSane
:
XSane
semble puissant, mais pas vraiment approprié comme solution de workflow;gscan2pdf
est un peu plus proche de l'idéal "pousser le bouton, obtenir le PDF", mais toujours pas à 100% là-bas.
Tout autre logiciel que vous pouvez recommander (gratuit ou non)?
gscan2pdf
j'avais des artefacts étranges avec le `` démasquage '', l'OCR était surtout inutilisable (certains moteurs mieux que d'autres) et dans l'ensemble, il n'était pas aussi rationalisé que la solution d'origine. Quoi qu'il en soit, l'essence de ma question est de voir ce qu'il y a d'autre pour que je puisse essayer différentes solutions et voir ce qui fonctionne le mieux pour moi.gscan2pdf
est en fait assez proche de ce que je recherche, mais il y a des domaines dans lesquels il fait cruellement défaut par rapport à la solution d'origine.Réponses:
Voici certaines choses que j'ai trouvées lors de mes recherches plus tôt cette année. Désolé, je ne peux pas publier plus d'un lien hypertexte en raison de ma note limitée, vous devrez donc Google pour les liens.
gscan2pdf
Un très bon système GUI qui peut utiliser divers moteurs OCR pour le backend. Cela répondra probablement à votre solution à une touche (et digitxp l'a déjà mentionné).
Moteur OCR Tesseract
Peut être utilisé avec gscan2pdf.
Ocropus
Je n'allais pas très loin avec ocropus car il ne reconnaissait pas le texte sans une formation approfondie. Ce serait probablement très bon pour les livres, mais cela ne fonctionnait pas bien pour moi avec les factures et autres. YMMV.
Cunéiforme
J'ai eu le meilleur succès avec Cuneiform et j'ai pu créer des PDF consultables en scriptant des commandes similaires au flux de travail suivant:
Vous devrez également installer le package exactimage.
Divers projets open source pour l'OCR'ing PDF utilisent également Cuniform et hocr2pdf :
Faites-moi savoir ce que vous découvrez!
la source