J'ai un certain nombre de documents numérisés en pdf et je veux pouvoir les rechercher. Comment puis je faire ça?
Essentiellement, je dois OCR le pdf, puis mélanger le texte extrait dans un nouveau pdf. J'ai essayé sans succès un certain nombre de solutions différentes (y compris celles trouvées dans Ajouter des informations OCR à un PDF ).
- pdfocr (qui me donne ce numéro: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (dont le centre logiciel dit que c'est un mauvais paquet et que je ne devrais pas l'installer)
- OCRfeeder (dans le centre du logiciel) exporte bien vers odt, mais ne réagit pas lors de l'exportation au format PDF.
- Gscan2pdf exporte une image entièrement noire (mais consultable) comme indiqué dans cette discussion .
- Je ne pense pas que la visionneuse Pdfxchange puisse gérer faire ocr à la volée sur des fichiers de plus de 500 pages.
Existe-t-il un progiciel que je ne connais pas? Ou un script qui fait ça?
software-recommendation
pdf
ocr
don.joey
la source
la source
pdf2searchablepdf
. Cela dépendtesseract
. Ça marche bien. Super facile à utiliser. Vois ici. askubuntu.com/a/1187881/327339Réponses:
Ubuntu <16.04
Suite au commentaire de Glutanimate, j'ai trouvé une solution de travail. Il s'agit du script OCRmyPDF .
Si vous recevez un message vous invitant à installer GNU en parallèle. Cela peut être fait (en suivant /ubuntu//a/298598/115155 ) avec (la deuxième ligne est facultative et dépend de votre saveur et de votre version):
Enfin, vous pouvez OCR votre pdf avec la commande:
S'il semble que la commande ne répond pas, vous pouvez augmenter la verbosité en utilisant l'
-v
indicateur (qui peut être utilisé de manière incrémentielle comme-vv
ou-vvv
). Il serait peut-être préférable de tester d'abord les résultats sur un fichier PDF plus court. Vous pouvez raccourcir un pdf comme suit:Ubuntu> = 16.04
Depuis Ubuntu 16.04, OCRmyPDF est disponible via apt. Il suffit de courir
Enfin, vous pouvez OCR votre pdf avec la commande:
S'il semble que la commande ne répond pas, vous pouvez augmenter la verbosité en utilisant l'
-v
indicateur (qui peut être utilisé de manière incrémentielle comme-vv
ou-vvv
). Il serait peut-être préférable de tester d'abord les résultats sur un fichier PDF plus court. Vous pouvez raccourcir un pdf comme suit:Si vous avez des questions, jetez un œil au nouveau Github Repo .
la source
sudo -H pip install git+https://github.com/jbarlow83/OCRmyPDF
pour Ubuntu 16.04sudo apt install ocrmypdf
.@ don.joey a répondu avec le script ocrmypdf . Cependant, il peut être installé directement maintenant (à partir de 16.10).
Ensuite, vous devez installer les langues tesseract dont vous avez besoin.
Pour répertorier les langues déjà présentes dans votre système, tapez:
Si vous en manquez, installez-le. Par exemple,
Vous pouvez maintenant produire un PDF interrogeable (dont la qualité variera en fonction du document numérisé) avec la commande suivante
Vous pouvez bien sûr consulter sa page de manuel pour des options supplémentaires.
la source
pdfsandwich
effectue exactement ce travail. Je ne savais pas qu'il y avait un package fourni dans le centre logiciel, mais je fournis des packages deb Ubuntu pour cela sur le site Web du projet (voir http://www.tobias-elze.de/pdfsandwich/ pour plus de détails), y compris la version actuellement la plus récente (0.1.2), qui ne devrait pas encore être dans un centre logiciel.Si vous avez un fichier numérisé
scanned_file.pdf
, appelez simplementqui génère le fichier
scanned_file_ocr.pdf
avec le texte reconnu ajouté aux pages numérisées.Par rapport à la plupart des solutions existantes, il détecte automatiquement la version tesseract installée et adapte son comportement en conséquence. De plus, il effectue un prétraitement des images numérisées avant le processus d'OCR, tel que le désalignement ou la suppression des bords sombres, etc., ce qui peut considérablement améliorer la reconnaissance optique des caractères.
AVERTISSEMENT: Je suis le développeur de
pdfsandwich
et donc fortement biaisé.la source
OCRfeeder a un bug dans
la ligne 436 devrait se lire:
changé cela et cela a fonctionné pour moi
la source
OS: Ubuntu 18.04
Tout d'abord, installez
tesseract-ocr
avec:Si vous allez utiliser une langue autre que l'anglais avec tesseract, vous devrez alors installer le package laguage correspondant. Par exemple pour le portugais, vous devrez faire:
Sinon, vous obtiendrez l'erreur:
Si vous utilisez Google "tesseract PDF", vous trouverez probablement ce message quelque peu dépassé . Cependant, il vous donne quelques conseils utiles. Vous devrez d'abord convertir votre
.pdf
fichier en un.tiff
seul. Courir:Si, comme dans le post obsolète, vous oubliez d'ajouter
alpha -Off
, vous obtiendrez l'erreur suivante:Vous pouvez maintenant exécuter la commande finale. Dans le cas particulier où votre PDF d'origine est en portugais, vous aurez besoin de cette commande:
Le fichier généré sera nommé
output.pdf
. Si, par exemple, votre PDF est en français, après avoir installé le correspondanttesseract-ocr-fra
, vous exécuterez:Et le fichier souhaité sera, encore une fois
output.pdf
,.la source
J'ai eu ce même problème alors j'ai écrit ça pendant le week-end. Donner un coup de feu; ça marche super! C'est un simple emballage autour
tesseract
. Il utilisepdftoppm
pour convertir un PDF en un tas de fichiers TIFF, puis il utilisetesseract
pour effectuer l'OCR (Optical Character Recognition) sur eux et produire un PDF consultable en sortie. Tous les fichiers temporaires intermédiaires sont automatiquement supprimés à la fin du script.Code source: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Instructions d'installation et d'utilisation
pdf2searchablepdf
:Testé sur Ubuntu 18.04 le 11 novembre 2019.
Installer:
Utilisation:
Vous aurez maintenant un pdf appelé mypdf_searchable.pdf , qui contient du texte consultable!
Terminé. Le wrapper n'a pas de dépendances python, car il est actuellement entièrement écrit en bash.
Références ou ressources connexes:
pdftoppm
] Extraire des images intégrées d'un PDFla source