tout d'abord, veuillez m'excuser si cela a été demandé auparavant - j'ai cherché pendant un certain temps dans les messages existants, mais je n'ai pas pu trouver de support.
Je suis intéressé par une solution pour Fedora pour OCR un pdf multipage non consultable et pour transformer ce pdf en un nouveau fichier pdf qui contient la couche de texte au-dessus de l'image. Sur Mac OSX ou Windows, nous pourrions utiliser Adobe Acrobat, mais sur Linux, en particulier sur Fedora?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/ semble décrire une solution - mais malheureusement, je suis déjà perdu lors de la récupération de l'image exacte.
command-line
pdf
ocr
ingli
la source
la source
Réponses:
Le meilleur moyen et le plus simple de l'utiliser
pypdfocr
est de ne pas modifier le pdf. pypdfocr est un lien vers le module python ici.À la fin, vous en aurez un autre
your_document_ocr.pdf
comme vous le souhaitez avec du texte consultable. L'application ne change pas la qualité de l'image. Augmente un peu la taille du fichier en ajoutant le texte de superposition.Je pense que la commande est assez simple car elle ne nécessite aucune interface graphique. Peut-être que l'installation de pypdfocr est un peu plus détaillée:
Mise à jour du 3 novembre 2018:
pypdfocr
n'est plus pris en charge depuis 2016 et j'ai remarqué des problèmes de non-mentoring.ocrmypdf
( module ) fait un travail similaire et peut être utilisé comme ceci:À installer:
ou
la source
Après avoir appris que tesseract peut désormais également produire des fichiers PDF consultables, j'ai trouvé le sandwich de script: http://www.tobias-elze.de/pdfsandwich/
après l'installation des dépendances (ce n'est peut-être pas la liste complète)
J'ai suivi le guide du script pour la compilation à partir des sources
et cela me permet maintenant de courir
résultant en un pdf consultable.
la source
Un outil simple disponible dans Ubuntu est «ocrfeeder», il permet la génération de PDF avec du texte OCR superposé sur les documents originaux. Il utilise Tesseract ainsi que d'autres moteurs OCR (je ne sais pas lequel) et prévoit également la rotation d'image / «unpaper», etc.
la source
J'ai eu ce même problème, alors j'ai écrit cela pendant le week-end. Donner un coup de feu; ça marche super! C'est un simple emballage autour
tesseract
. Il utilisepdftoppm
pour convertir un PDF en un tas de fichiers TIFF, puis il utilisetesseract
pour effectuer l'OCR (reconnaissance optique de caractères) et produire un PDF consultable en sortie. Tous les fichiers temporaires intermédiaires sont automatiquement supprimés à la fin du script.Code source: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Instructions d'installation et d'utilisation
pdf2searchablepdf
:Testé sur Ubuntu 18.04 le 11 novembre 2019.
Installer:
Utilisation:
Vous aurez maintenant un pdf appelé mypdf_searchable.pdf , qui contient du texte consultable!
Terminé. Il n'a pas de dépendances python, car il est actuellement entièrement écrit en bash.
Références ou ressources connexes:
la source