Open source préféré, mais pas nécessaire.
J'ai Adobe Acrobat 8 et j'aime vraiment la fonction OCR qui peut essentiellement mettre une couche invisible de texte OCR au-dessus d'un document numérisé. Ainsi, ce que vous voyez à l'écran est le document numérisé d'origine, mais le résultat est consultable.
Ce que je recherche, c'est un moyen d'automatiser ce processus. J'ai actuellement quelques scripts que nous utilisons pour le traitement et l'archivage des fichiers numérisés, et je cherche quelque chose que je peux connecter directement à ce processus par lots pour faire de l'OCR d'une manière similaire à ce que je peux faire avec Acrobat.
Toutes les suggestions sont les bienvenues, merci!
pdf
document-management
ocr
Boden
la source
la source
Réponses:
Je l'ai implémenté dans un projet d'archivage de documents d'entreprise. Le fichier numérisé est un fichier tif (une seule page). Puis en utilisant Cuneiform pour créer un fichier hocr du tif unique. Puis en utilisant hocr2pdf pour sortir le fichier PDF. Si plusieurs pages numérisées, j'utilise gs pour combiner les PDF en un seul document PDF. Fonctionne très bien, l'OCR est assez bon pour nos besoins et peut être recherché dans n'importe quel visualiseur PDF.
la source
Avez-vous regardé WatchOCR? Vous pouvez le télécharger sur http://www.watchocr.com Il s'agit d'un serveur OCR gratuit et open source qui transforme les fichiers PDF image uniquement en fichiers PDF consultables à partir d'un dossier surveillé ou d'un partage réseau.
la source
J'aime les sons de la réponse de xeon, bien qu'OCRopus semble très amusant.
la source