Comment puis-je convertir des images numérisées au format PDF en un fichier PDF interrogeable? [fermé]

19

J'ai un PDF d'un livre numérisé.

Je suis à la recherche d'un logiciel gratuit qui effectuera l'OCR, puis fournira une option pour l'enregistrer au format PDF ou document à nouveau.

Est-ce qu'il y a un?

slhck
la source
Vous voulez dire que vous voulez convertir les images du pdf en texte?
DaveParillo
oui, mais je ne veux pas de fichier txt en sortie. Je veux voir exactement le même pdf mais avec une option pour appuyer sur Ctrl + F et marquer les mots etc.
vous aurez beaucoup de mal à convertir ce PDF sans perdre la mise en forme et le style du texte. Je n'ai pas encore trouvé de logiciel OCR capable de préserver correctement un document à partir d'images numérisées. préparez-vous pour un travail d'âne (par exemple, relecture, etc.) :)

Réponses:

5

Vous pouvez télécharger la version d'essai de 30 jours d' Adobe Acrobat Pro et utiliser la fonction 'OCR Text Recognition' ('Document> OCR Text Recognition> Recognize Text Using OCR ...'). Dans la boîte de dialogue des paramètres, choisissez «Image consultable» comme style de sortie. Cela gardera l'image de la page mais incorporera le texte OCR afin que le document soit consultable et permette au texte d'être sélectionné, copié et collé.

Après avoir exécuté l'OCR, vous devrez confirmer ou corriger les mots indiquant que l'OCR n'est pas sûr d'utiliser les fonctions «Rechercher des suspects d'OCR».

pelms
la source
Bien qu'Adobe ne soit pas gratuit, c'est de loin la solution d'OCR la plus performante du monde
James Healy
4

Si vous avez un compte Google, Google Documents inclut désormais la fonctionnalité permettant de télécharger un fichier PDF et d'effectuer une OCR dessus.

Je l'ai essayé moi-même et cela donne un coup de couteau à un PDF certes bien formaté.

Le formatage est quasiment détruit mais le texte semble survivre.

Richard Lucas
la source
4

Les produits suivants ont été trouvés sur Internet, mais je ne les ai pas utilisés.

OCR en ligne

Terminal OCR

OCR Terminal est un service OCR en ligne qui effectue la reconnaissance optique de caractères (OCR) sur vos images numérisées et vos fichiers PDF et les convertit en documents modifiables et consultables par texte.

OCR gratuit

Free-OCR.com est un outil OCR (reconnaissance optique de caractères) en ligne gratuit. Vous pouvez l'utiliser pour effectuer l'OCR sur n'importe quelle image que vous fournissez.
Ce service est gratuit, aucune inscription n'est nécessaire. Nous n'avons pas non plus besoin de votre adresse e-mail.
Téléchargez simplement vos fichiers image. Free-OCR prend soit un JPG, GIF, TIFF BMP ou PDF ( uniquement la première page ). La seule restriction est que les images ne doivent pas être supérieures à 2 Mo, ni plus larges ni supérieures à 5000 pixels et il y a une limite de 10 téléchargements d'images par heure.

Maestro Recognition Server est commercial, mais propose une démo d'essai en ligne.

Logiciel gratuit

FreeOCR - pour les images uniquement.

FreeOCR est un programme de numérisation et d'OCR comprenant le moteur ocr gratuit Tesseract également connu sous le nom de GUI Tesseract. Il comprend un programme d'installation Windows et il est très simple à utiliser et prend en charge les tiff de plusieurs pages, les documents de télécopie ainsi que la plupart des types d'images, y compris les Tiff compressés que le moteur Tesseract ne peut pas lire à lui seul. Il a maintenant la numérisation Twain.

pdfsandwich - pdf -> convertisseur pdf.

pdfsandwich est un outil en ligne de commande pour les livres ou revues numérisés OCR. Il est capable de reconnaître la mise en page même pour le texte multicolonne.

Essentiellement, pdfsandwich est un script wrapper qui appelle les fichiers binaires suivants: convert, cuneiform, gs et hocr2pdf. Il est connu pour fonctionner sur les systèmes Unix et a été testé sur Linux et MacOS X. Il prend en charge le traitement parallèle sur les systèmes multiprocesseurs.

harrymc
la source
Je viens d'utiliser pdfsandwich. Cela fonctionne et c'est gratuit! :) Cela va certainement aider dans ma thèse, merci!
Eddy
On dirait que pdfsandwich a déménagé? tobias-elze.de/pdfsandwich
pioto
@pioto: Ce n'est pas moi qui ai ajouté pdfsandwich ci-dessus, mais j'ai corrigé le lien comme vous l'avez suggéré.
harrymc
2

Cuneiform + hocr2pdf + Ghostscript : une solution open source DIY.

J'ai posté une réponse décrivant une solution impliquant une version du système OCR Cuneiform désormais open source et hocr2pdf avec Ghostscript pour assembler les pages PDF.

C'était spécifiquement pour Linux, mais vous pouvez également obtenir Cuneiform et Ghostscript pour Windows. Je ne suis pas sûr cependant de hocr2pdf ou d'un équivalent.

Jukka Matilainen
la source
1

Voici une méthode très étrange, qui consiste à laisser Google indexer et OCR pour vous sur un site Web, puis à le récupérer.

jtbandes
la source
ouais, j'ai vu ça aussi ... étrange En effet :) je pourrais finir par le faire ...
0

Installez Imagemagick . Ouvrez une fenêtre ou un terminal cmd:

convert myfile.pdf myfile-%02d.jpg

La sortie sera 1 fichier jpg pour chaque page de votre pdf, myfile-00.jpg, myfile-01.jpg, etc.

Passez chaque image à travers un programme ocr. Je n'ai pas beaucoup d'expérience avec cela, mais il semble y avoir beaucoup de choix.

Convertissez chaque page de texte en pdf. Vous pouvez recommencer avec imagemagick, mais il existe également d'autres moyens:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
DaveParillo
la source
0

Votre demande semble être une solution compliquée au problème, bien que je ne puisse pas comprendre le problème correctement. À tout prix:

Pourquoi ne pas obtenir un rédacteur PDF qui vous permettra de saisir les données directement sur la page pdf?

Xavierjazz
la source
0

Essayez PDFCubed.com Rien à installer, tout se fait en ligne. Vous pouvez envoyer vos documents à traiter via le Web, par e-mail ou via Dropbox. Les fichiers PDF et TIF numérisés sont convertis en fichiers PDF consultables et peuvent ensuite être récupérés via le Web, le courrier électronique ou la boîte de dépôt.

rlangner
la source