Logiciel de numérisation vers PDF pour Linux?

18

J'ai un flux de travail par lequel je numérise des documents papier en PDF consultables à l'aide d'un scanner de documents Fujitsu ScanSnap S500 . Je ne suis pas un grand fan du logiciel fourni, mais il est simple à utiliser: placez une pile de papier en haut, appuyez sur le bouton vert et un PDF consultable sort.

Maintenant, j'aimerais faire quelque chose de similaire sur Linux (Ubuntu 10.10). Le scanner est pris en charge hors de la boîte.

J'ai regardé gscan2pdfet XSane:

  • XSane semble puissant, mais pas vraiment approprié comme solution de workflow;
  • gscan2pdf est un peu plus proche de l'idéal "pousser le bouton, obtenir le PDF", mais toujours pas à 100% là-bas.

Tout autre logiciel que vous pouvez recommander (gratuit ou non)?

NPE
la source
j'utilise des coupes pdf, mais c'est une image qui ne peut pas être recherchée
RobotHumans
1
Qu'est-ce qui n'est pas «à 100%» avec gscan2pdf?
digitxp
@digitxp Je ne voulais pas encombrer la question avec une liste de problèmes, de goûts et d'aversions pour n'importe quel produit. Cependant, puisque vous demandez, dans gscan2pdfj'avais des artefacts étranges avec le `` démasquage '', l'OCR était surtout inutilisable (certains moteurs mieux que d'autres) et dans l'ensemble, il n'était pas aussi rationalisé que la solution d'origine. Quoi qu'il en soit, l'essence de ma question est de voir ce qu'il y a d'autre pour que je puisse essayer différentes solutions et voir ce qui fonctionne le mieux pour moi.
NPE
@digitxp Je viens de relire mon commentaire précédent et cela semble assez négatif. Ce n'était pas l'intention. gscan2pdfest en fait assez proche de ce que je recherche, mais il y a des domaines dans lesquels il fait cruellement défaut par rapport à la solution d'origine.
NPE

Réponses:

18

Voici certaines choses que j'ai trouvées lors de mes recherches plus tôt cette année. Désolé, je ne peux pas publier plus d'un lien hypertexte en raison de ma note limitée, vous devrez donc Google pour les liens.

gscan2pdf

Un très bon système GUI qui peut utiliser divers moteurs OCR pour le backend. Cela répondra probablement à votre solution à une touche (et digitxp l'a déjà mentionné).

Moteur OCR Tesseract

Peut être utilisé avec gscan2pdf.

Ocropus

Je n'allais pas très loin avec ocropus car il ne reconnaissait pas le texte sans une formation approfondie. Ce serait probablement très bon pour les livres, mais cela ne fonctionnait pas bien pour moi avec les factures et autres. YMMV.

Cunéiforme

J'ai eu le meilleur succès avec Cuneiform et j'ai pu créer des PDF consultables en scriptant des commandes similaires au flux de travail suivant:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Vous devrez également installer le package exactimage.

Divers projets open source pour l'OCR'ing PDF utilisent également Cuniform et hocr2pdf :

  • WatchOCR
  • Archivista

Faites-moi savoir ce que vous découvrez!

Eric Holmberg
la source