J'ai numérisé environ 80 pages en PDF en niveaux de gris (format d'image). La taille finale du fichier est d’environ 70 Mo, ce qui est très énorme.
Maintenant, je cherche une méthode pour convertir le fichier PDF en niveaux de gris au format PDF en un fichier PDF au format texte noir / blanc.
J'ai fait beaucoup de tentatives avec gs
mais sans succès (seulement quelques pour cent de récupération). Si un expert a une idée, merci de me le faire savoir.
Réponses:
gImageReader est un simple frontal GTK +
tesseract-ocr
.désolé pour le texte allemand
la source
sudo apt-get install tesseract-ocr-[lang]
remplaçantlang
par le code de langue, commedeu
pour Deutsch,por
pour le portugais, etc.Vous pouvez essayer pdfocr:
Pour exécuter la syntaxe est
où
input.pdf
est le nom du fichier d'entrée etoutput.pdf
du fichier de sortie.Par défaut, il utilise Tesseract. Pour l'installer:
pdfocr crée un calque de texte incorporé.
la source
Il charge tesseract et d’autres sur l’installation. C'est une solution simple en une étape et peut être scriptée. Il peut utiliser
hocr2pdf
pour créer un pdf en texte brut, mais ce n’est pas encore prêt pour le prime time ... pour le moment. La valeur par défaut utilise tesseract et crée un pdf "en sandwich": image + texte en dessous.L'image intégrée peut être supprimée avec des commandes telles que:
mais le texte est masqué et ressemble donc à une page blanche.
Le chargement du PDF dans
LibreOffice Draw
expose le texte et l'image peut être supprimée manuellement.la source
not authorized
erreursidentify-im6.q16
telles que: imagemagick - convertir: non autoriséaaaa
@ error / constit.c / ReadImage / 453 - Dépassement de pilePour l'interface graphique suggérée par @AB sur Ubuntu 14.04, vous devez suivre:
ocr tesseract sur Ubuntu 14.04
ou de toute façon, ajoutez à la liste de référentiel:
avant que cela fonctionne:
la source
Vous pouvez essayer shrinkpdf pour réduire la taille du fichier, puis ocr.sh pour ajouter le calque de texte.
la source
Dans votre fichier pdf, cliquez avec le bouton droit de la souris et enregistrez chaque page en tant qu’image (ou recherchez un outil qui traite automatiquement toutes les pages).
Ouvrez le centre de logiciels Ubuntu. Rechercher: tesseract. Cela trouvera YAGF que vous devez installer. Dans YAGF, cliquez sur Fichier -> Ouvrir une image et chargez votre image. Cliquez ensuite sur Fichier -> Reconnaître.
J'avais 100% de précision lors de mon premier test.
la source