Comment convertir un PDF numérisé en un PDF avec texte

36

J'ai numérisé environ 80 pages en PDF en niveaux de gris (format d'image). La taille finale du fichier est d’environ 70 Mo, ce qui est très énorme.

Maintenant, je cherche une méthode pour convertir le fichier PDF en niveaux de gris au format PDF en un fichier PDF au format texte noir / blanc.

J'ai fait beaucoup de tentatives avec gsmais sans succès (seulement quelques pour cent de récupération). Si un expert a une idée, merci de me le faire savoir.

Amiral
la source
1
Vous avez besoin d'un outil d'OCR. Regardez Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.
4
Si vous souhaitez conserver les images PDF telles quelles et y ajouter du texte, consultez la question Ajout d'informations OCR à un PDF .
Colan
Si vous pouviez poster un lien vers (par exemple) un exemple d'une page, nous pourrions tester des solutions ...
Rmano
Ce n'est pas une solution d'OCR mais askubuntu.com/a/3387/16395 aide beaucoup (bien que 72 dpi soit un peu faible, j'ai de meilleurs résultats avec 120).
Rmano
YAGF fonctionne-t-il correctement avec Ubuntu 16.04? Si je charge une image ou un document PDF, le programme échoue sans message d'erreur. Sous Ubuntu 14.04, je n’ai eu aucun problème. H.Roos
Hubert Roos

Réponses:

25

gImageReader est un simple frontal GTK + tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

désolé pour le texte allemand

UN B
la source
4
Vous devez également installer la langue du document pour améliorer l'OCR, en sudo apt-get install tesseract-ocr-[lang]remplaçant langpar le code de langue, comme deupour Deutsch, porpour le portugais, etc.
estibordo le
1
Ce logiciel est moche. La convivialité est sous zéro. Bien qu'il essaie de faire le travail, mais il est incapable de lire des tableaux simples ressemblant à des feuilles de calcul. Il manque juste les pages qui les contiennent.
Max Yudin
9

Vous pouvez essayer pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Pour exécuter la syntaxe est

 pdfocr -i input.pdf -o output.pdf

input.pdfest le nom du fichier d'entrée et output.pdfdu fichier de sortie.

Par défaut, il utilise Tesseract. Pour l'installer:

 sudo apt-get install tesseract-ocr

pdfocr crée un calque de texte incorporé.

Rafmunozf
la source
Génial! Il est intéressant de noter qu'après avoir effectué les étapes ci-dessus, le fichier est maintenant consultable dans Adobe Acrobat DC mais pas dans Aperçu.
lukeaus
2
Ce dépôt ne supporte pas xenial
Max N
Vous pouvez essayer d'installer une ancienne version de pdfocr. Si vous installez la version astucieuse sur xenial, cela fonctionne bien. Pour ce faire, ajoutez "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" et "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" et "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" à /etc/apt/sources.list, puis "sudo apt update" et "sudo apt-get install pdfocr"
rafmunozf
2
pdfocr est un script qui automatise le processus suivant: 1. Séparer le fichier PDF en pages séparées à l’aide de pdftk 2. Extraire les données de l’image à l’aide de pdfimages Fichier PDF utilisant hocr2pdf 5. Fusionnez les fichiers avec pdftk. (citation de ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell
3
pdfsandwich

Il charge tesseract et d’autres sur l’installation. C'est une solution simple en une étape et peut être scriptée. Il peut utiliser hocr2pdfpour créer un pdf en texte brut, mais ce n’est pas encore prêt pour le prime time ... pour le moment. La valeur par défaut utilise tesseract et crée un pdf "en sandwich": image + texte en dessous.

L'image intégrée peut être supprimée avec des commandes telles que:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

mais le texte est masqué et ressemble donc à une page blanche.

Le chargement du PDF dans LibreOffice Drawexpose le texte et l'image peut être supprimée manuellement.

AtesComp
la source
Que faisons-nous des problèmes de sécurité imagemagick / ghostscript menant à des not authorizederreurs identify-im6.q16telles que: imagemagick - convertir: non autorisé aaaa@ error / constit.c / ReadImage / 453 - Dépassement de pile
nealmcb
1

Pour l'interface graphique suggérée par @AB sur Ubuntu 14.04, vous devez suivre:

ocr tesseract sur Ubuntu 14.04

ou de toute façon, ajoutez à la liste de référentiel:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

avant que cela fonctionne:

sudo apt-get install gimagereader
michel.iamit
la source
1

Vous pouvez essayer shrinkpdf pour réduire la taille du fichier, puis ocr.sh pour ajouter le calque de texte.

étudiant
la source
-1

Dans votre fichier pdf, cliquez avec le bouton droit de la souris et enregistrez chaque page en tant qu’image (ou recherchez un outil qui traite automatiquement toutes les pages).

Ouvrez le centre de logiciels Ubuntu. Rechercher: tesseract. Cela trouvera YAGF que vous devez installer. Dans YAGF, cliquez sur Fichier -> Ouvrir une image et chargez votre image. Cliquez ensuite sur Fichier -> Reconnaître.

J'avais 100% de précision lors de mon premier test.

Atmelino
la source