J'ai un PDF d'un livre numérisé.
Je suis à la recherche d'un logiciel gratuit qui effectuera l'OCR, puis fournira une option pour l'enregistrer au format PDF ou document à nouveau.
Est-ce qu'il y a un?
software-rec
pdf
ocr
slhck
la source
la source
Réponses:
Vous pouvez télécharger la version d'essai de 30 jours d' Adobe Acrobat Pro et utiliser la fonction 'OCR Text Recognition' ('Document> OCR Text Recognition> Recognize Text Using OCR ...'). Dans la boîte de dialogue des paramètres, choisissez «Image consultable» comme style de sortie. Cela gardera l'image de la page mais incorporera le texte OCR afin que le document soit consultable et permette au texte d'être sélectionné, copié et collé.
Après avoir exécuté l'OCR, vous devrez confirmer ou corriger les mots indiquant que l'OCR n'est pas sûr d'utiliser les fonctions «Rechercher des suspects d'OCR».
la source
Si vous avez un compte Google, Google Documents inclut désormais la fonctionnalité permettant de télécharger un fichier PDF et d'effectuer une OCR dessus.
Je l'ai essayé moi-même et cela donne un coup de couteau à un PDF certes bien formaté.
Le formatage est quasiment détruit mais le texte semble survivre.
la source
Les produits suivants ont été trouvés sur Internet, mais je ne les ai pas utilisés.
OCR en ligne
Terminal OCR
OCR gratuit
Maestro Recognition Server est commercial, mais propose une démo d'essai en ligne.
Logiciel gratuit
FreeOCR - pour les images uniquement.
pdfsandwich - pdf -> convertisseur pdf.
la source
Cuneiform + hocr2pdf + Ghostscript : une solution open source DIY.
J'ai posté une réponse décrivant une solution impliquant une version du système OCR Cuneiform désormais open source et hocr2pdf avec Ghostscript pour assembler les pages PDF.
C'était spécifiquement pour Linux, mais vous pouvez également obtenir Cuneiform et Ghostscript pour Windows. Je ne suis pas sûr cependant de hocr2pdf ou d'un équivalent.
la source
Voici une méthode très étrange, qui consiste à laisser Google indexer et OCR pour vous sur un site Web, puis à le récupérer.
la source
Installez Imagemagick . Ouvrez une fenêtre ou un terminal cmd:
La sortie sera 1 fichier jpg pour chaque page de votre pdf, myfile-00.jpg, myfile-01.jpg, etc.
Passez chaque image à travers un programme ocr. Je n'ai pas beaucoup d'expérience avec cela, mais il semble y avoir beaucoup de choix.
Convertissez chaque page de texte en pdf. Vous pouvez recommencer avec imagemagick, mais il existe également d'autres moyens:
la source
Votre demande semble être une solution compliquée au problème, bien que je ne puisse pas comprendre le problème correctement. À tout prix:
Pourquoi ne pas obtenir un rédacteur PDF qui vous permettra de saisir les données directement sur la page pdf?
la source
Essayez PDFCubed.com Rien à installer, tout se fait en ligne. Vous pouvez envoyer vos documents à traiter via le Web, par e-mail ou via Dropbox. Les fichiers PDF et TIF numérisés sont convertis en fichiers PDF consultables et peuvent ensuite être récupérés via le Web, le courrier électronique ou la boîte de dépôt.
la source