J'ai une bonne numérisation d'un document; cette numérisation est au format pdf.
Comment puis-je ajouter des informations ocr au pdf, afin qu'elles deviennent consultables? Par recherche, je veux dire que le but est que lors de la visualisation du pdf avec evince, CTRL-F me permet en fait de rechercher dans le contenu du pdf.
Réponses:
pdfsandwich
Fait ce que vous voulez et fournit des paquets deb Ubuntu. Il utilise tesseract comme moteur OCR. L'appel suivant ajoute la couche de texte à votre PDF numérisé:
Ce qui suit fait la même chose mais avec une autre langue (code ISO 639-2,
tesseract-ocr-LANGCODE
package de téléchargement ) et la mise en page:Si vous obtenez une erreur, veuillez télécharger la dernière version deb de Sourceforge .
Avertissement: je suis le développeur de pdfsandwich et donc évidemment biaisé.
la source
pdfunite
.pdfsandwitch
? Je fais cela avec certains documents suédois, et cela fonctionne bien, à l'exception de quelques fautes d'orthographe (probablement à cause de la police de l'original) qui seraient faciles à corriger s'il s'agissait d'un fichier texte, mais comment puis-je le faire dans le PDF résultant ?Il y a deux projets qui font l'affaire: GScan2PDF et OCRFeeder
la source
J'ai trouvé une solution non idéale, mais très efficace.
J'utilise PDF X-Change Viewer via Wine. Il dispose d'une fonction OCR qui ajoute une couche de texte au pdf basé sur l'image existant.
Ainsi, vous pouvez rechercher et copier du texte à partir de ce calque invisible.
la source
Pour une solution en ligne de commande, vous pouvez utiliser pdfocr .
En bref, installez le logiciel:
Exécutez ensuite pdfocr:
Cela a fonctionné pour moi sur Ubuntu 12.04 LTS.
la source
pdfsandwich
, car il modifie / compresse les fichiers PDF contenant des images de haute résolution, détruisant essentiellement certaines des informations d'image d'origine.OCRmyPDF est une solution facilement implémentable et fournissant un fichier PDF de sortie avec la même qualité de fichier d'entrée et une taille raisonnable:
https://github.com/jbarlow83/OCRmyPDF
la source
Ceci est ma solution rapide et sale sur la base de ImageMagick
convert
,tesseract
,parallel
etpdftk
(toutes disponibles sur les distributions basées sur debian-). Il est largement basé sur cet article de blog .la source
Pour un répertoire entier avec des fichiers ppm, vous pouvez utiliser ce script ppm2ocrpdf.sh
la source