OCR par lots pour de nombreux fichiers PDF (pas déjà OCR)? [fermé]

9

J'utilise Google Desktop Search (je suis sous Vista) et tous mes fichiers PDF ne sont pas reconnus dans mon dossier d'archives. Il est normal que les " fichiers PDF contenant des images numérisées " ne soient pas indexés ( http://desktop.google.com/support/bin/answer.py?hl=en&answer=90651 )

Je voudrais donc OCR plusieurs de mes fichiers PDF qui ne sont pas déjà OCRed. Mon objectif: je donne au programme un dossier et il recherche seul dans les sous-dossiers les fichiers PDF qui doivent être convertis en fichiers PDF-OCRed.

Remarque: Par le passé, si un fichier PDF était protégé par mot de passe, j'ai supprimé le mot de passe avec un autre outil de traitement par lots (payant): verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Une idée (pas trop chère)?

J'ai déjà essayé: Finereader 6 pro sur xp à l'époque, mais il n'y avait pas de processeur batch inclus ... Paperfile paperfile.net qui utilise Tesseract http://code.google.com/p/tesseract-ocr/ . Mais l'OCR est uniquement PDF en texte, pas PDF en PDF! Il existe également un autre projet http://code.google.com/p/ocropus/

Merci d'avance ;)

Erb
la source
Mise à jour un an plus tard: Bonjour, Apparemment, le logiciel "ABBYY Hot Folder & Scheduling", inclus uniquement dans ABBYY FineReader (> v. 9.0), éditions de licence d'entreprise et de site, peut aider (je ne l'ai pas essayé: 600 $!)! Tesseract devrait également travailler sur Windows maintenant (sans succès pour moi en ce moment!; ()
Erb
De plus, ABBYY FineReader (> v. 9.0) Pro edition a une tâche d'automatisation: vous choisissez le dossier principal + ses sous-dossiers, et il fait le travail. Mais le principal problème est qu'il ouvre tous les pdf à la fois (!!), puis les lit (= ocr) et enregistre ensuite un fichier pdf unique! Donc, si vous avez des centaines de pdf, cette fichue chose ne fonctionne pas pour moi! ; (Dommage, quel cauchemar!; (
Erb

Réponses:

6

tl; dr? Commencez avec Nuance PowerPDF Advanced.

J'ai évalué le logiciel OCR en décembre 2014 en préparation d'un grand projet - OCR sur des millions de pages en anglais faites par lots. Si vous êtes prêt à dépenser quelques centaines de dollars, vous avez plusieurs options; les versions d'essai peuvent vous aider si vous n'avez besoin que de convertir quelques centaines de pages.

De nombreux logiciels souhaitent charger tous les fichiers d'entrée, effectuer une reconnaissance optique de caractères et fusionner le désordre en une seule sortie. À mon humble avis, c'est complètement faux, je ne sais pas qui voudrait ça. Je cherchais un vrai lot: un fichier de sortie pour chaque fichier d'entrée, une opération sans assistance, ne vous arrêtez pour rien, donnez-moi un rapport détaillé à la fin. Alerte spoiler: je n'ai pas trouvé ça.

Les packages par ordre alphabétique suivent. Les prix indiqués ci-dessous sont une liste mais les rabais abondent. Prenez mes commentaires sur la précision avec un grain de sel; vos entrées ne seront pas les mêmes que mes entrées, donc votre kilométrage variera certainement.

ABBYY Finereader 12 Corporate: 400 $. La fonction de traitement par lots est appelée "Gestionnaire des tâches" et se trouve dans le menu Outils. Il traitera les fichiers d'un dossier, y compris les sous-dossiers; il se fera un plaisir de créer un fichier de sortie distinct pour chaque fichier d'entrée. Il ne semble pas capable de conserver la hiérarchie des dossiers d'entrée; tous les fichiers de sortie sont allés dans le même dossier de sortie. La précision était élevée dans mes tests, mais toujours la plus faible des packages que j'ai énumérés ici.

Adobe Acrobat XI: 300 $. La fonction de traitement par lots est appelée "Reconnaissance de texte / dans plusieurs fichiers", que vous pouvez trouver en cliquant sur Outils (troisième barre d'outils, en haut à droite de l'écran principal). Traite les sous-dossiers, une sortie pour chaque entrée. Arrête et affiche une invite s'il trouve un fichier protégé par mot de passe. Ne conserve pas l'arborescence du répertoire d'entrée par défaut; peut le faire en écrivant la sortie dans le même dossier que l'entrée. La précision était assez bonne dans mes tests.

Nuance OmniPage Ultimate (alias v19): 500 $. La fonction de traitement par lots est appelée "DocuDirect" et c'est un programme distinct fourni avec le package. Il traitera les dossiers et sous-dossiers; si vous sélectionnez les fonctionnalités à droite, il conservera l'arborescence du répertoire d'entrée dans la zone de sortie. Une sortie pour chaque entrée. Arrête et demande un mot de passe pour un fichier protégé. Semble tirer un excellent avantage des processeurs multicœurs pour exécuter des tâches en parallèle. La précision était excellente . Mais la stabilité du processeur par lots est médiocre; un document flou l'arrêtera sur ses traces, pour ne jamais le récupérer, faisant dérailler un lot avec facilité.

Nuance PowerPDF Advanced v1.1 (successeur d'OmniPage Ultimate): 150 $. La fonction Batch est appelée "Batch Converter" et elle est accessible à partir du programme principal sous l'onglet Traitement avancé. Il traitera les dossiers et sous-dossiers, préservant la structure d'entrée dans la sortie. Une sortie pour chaque entrée. Utilisera plusieurs cœurs, mais pas de manière agressive; ce que cela signifie, c'est que je ne pouvais pas le faire saturer un hôte multicœur. La précision est excllente , aussi bonne ou meilleure qu'OmniPage. Les fichiers incorrects ou flous ne l'ont pas bloqué. Le processeur par lots écrit ( choc ) un fichier journal en texte brut dans le répertoire de sortie.

ReadIris Corporate 14: 600 $. La fonction Batch est invoquée par l'élément "Batch OCR" qui est révélé en cliquant sur le bouton "From Files" sur l'écran principal. Il traitera les dossiers et sous-dossiers, une sortie pour chaque entrée et, par défaut, la structure du répertoire de sortie correspond à la structure du répertoire d'entrée. Arrête et demande l'entrée de l'utilisateur sur un fichier invalide; traite sans autre plainte tous les documents protégés apparemment par OCR-ing l'image. La précision était très bonne, comparable à Acrobat.

Sur ma machine de bureau (uniquement dual core), avec les entrées que j'ai choisies, chaque package a nécessité au moins 3 secondes pour traiter une page; certains en ont pris plus. Pourrait être en mesure de conduire cela sur une machine avec plus de cœurs.

Les Gotchas abondent, assurez-vous de les planifier: PDF non valides (certains packages s'arrêtent), PDF protégés par mot de passe (certains packages s'arrêtent, d'autres convertissent de toute façon!), Et des pages pivotées (paysage au lieu de portrait). Si vous souhaitez que le lot s'exécute jusqu'à la fin, vous devez préparer la zone d'entrée pour ces packages très, très soigneusement. Examinez la fonction d'impression au format PDF du package GhostScript pour trouver un moyen de supprimer la protection des PDF.

L'exécution de grands lots peut entraîner un épuisement de la mémoire et des problèmes de suspension, même si cela ne devrait pas (argh - probablement des fuites de mémoire). Si vous faites une quelconque automatisation, un gros problème est de découvrir après coup ce qui s'est réellement passé - quels documents n'ont pas pu être traités, qui ont échoué pendant le traitement, etc. C'est comme les logiciels de bureau que les gens n'ont jamais entendu parler de quelque chose appelé "fichier journal".

Enfin, obtenir de l'assistance, même en tant que client payant, est assez difficile pour ces forfaits grand public. Par exemple, je me suis plaint à un représentant du service client estimé d'un package (qui doit rester anonyme) suspendu pour certaines entrées importantes. J'ai attendu 36 heures avant d'abandonner :). Ils ont gentiment suggéré de limiter la taille du lot à 300 documents. C'était tout à fait inacceptable pour moi, mais bon, le ticket d'assistance a été fermé rapidement, non? Et c'est tout ce qui compte, non? Soupir.

HTH

chrisinmtown
la source
Bonjour Chrislott, Merci pour votre réponse détaillée. ;) J'ai apprécié. ;) Nous sommes plus de 4 ans plus tard et incroyablement encore aucun logiciel n'est parfait pour faire simplement une OCR automatique dans un dossier et libérer un fichier journal avec des erreurs une fois terminé! ... J'essaierai peut-être de contacter Nuance.
Erb
Pour l'instant j'utilise une ancienne version d'Acrobat pro et plusieurs freeware. C'est un long processus. Je peux le détailler si besoin! Mais le travail est fait le mieux possible! ;)
Erb
3

Adobe Acrobat traitera un dossier de PDF et, comme la plupart des produits Adobe, il y a un essai de 30 jours .
La fonction se trouve dans le menu 'Document':

Document> OCR Text Regocnition> Reconnaître le texte dans plusieurs fichiers à l'aide de l'OCR

d'où vous pouvez ajouter votre dossier.

Dans Acrobat X, la fonction est disponible comme suit:

Outils> Reconnaître le texte> Dans plusieurs fichiers
pelms
la source
Merci "pelms". ;) Je vais l'essayer si le temps le permet. Ce que j'ai aimé dans mon précédent essai de finereader.abbyy.com, c'est qu'il pouvait reconnaître plusieurs langues différentes. ;)
Erb
1

En fait, pdfsandwich a été mis à jour au cours de la dernière année et n'a pas été du tout difficile à installer dans Linux Mint. Les résultats qu'il donne sont inférieurs à Adobe Acrobat, mais c'est la seule solution viable que j'ai trouvée à ce jour sous Linux.

Brian Z
la source
1
Très intéressant! Je n'en savais rien. J'ajoute un lien depuis en.wikisource.org/wiki/… et je le testerai à un moment donné dans le futur. (Il existe en fait de nombreuses autres solutions mais je ne vais pas commencer ici!)
Nemo
0

Essayez WatchOCR . Il s'agit d'un progiciel open source qui convertit les images numérisées en fichiers PDF avec possibilité de recherche de texte. Il est gratuit et open source et possède une belle interface Web pour l'administration à distance. Avec la bonne configuration, il peut être utilisé pour créer un service batch pdf / ocr pour un réseau entier via des partages smb. Malheureusement, ce n'est que Linux. Mais vous pouvez l'installer sur un ancien serveur, puis toute votre organisation peut l'utiliser.

Si vous voulez faire la même chose en ligne sans rien installer, essayez PDFCubed.com

rlangner
la source
La page d'accueil de WatchOCR est squattée, mais archivée
Tobias Kienzler