Acrobat 11 peut-il être conçu pour effectuer l'OCR à l'aide de plusieurs cœurs de processeur?

8

Le traitement OCR prend du temps. L'utilisation de plusieurs cœurs de processeur accélérerait le traitement. Acrobat 10 n'était pas une application multithread . Que diriez-vous d'Acrobat 11? Par défaut, 11 utilise-t-il l'OCR en utilisant plusieurs cœurs de processeur (si disponible)? Sinon, existe-t-il des solutions de contournement, par exemple des scripts, pour aider Acrobat 11 à effectuer l'OCR en utilisant plusieurs cœurs de processeur? Soit via le langage de script intégré d'Acrobat, soit en utilisant des scripts externes qui lancent et dirigent plusieurs instances d'un seul thread d'Acrobat en parallèle à des parties du travail de traitement.

Remarque: Cette question n'est pas trop localisée (ne se limite pas à un moment précis) car (1) Adobe ne publie pas très souvent de nouvelles versions majeures d'Acrobat (Acrobat 10 est sorti il ​​y a deux ans) et (2) Adobe Acrobat est un application utilisée.

tarcman.
la source

Réponses:

6

J'ai installé la version d' essai d'Acrobat 11 (XI) dans VirtualBox. Acrobat 11 est monothread.

J'ai également créé un script externe qui démarre plusieurs instances d'Acrobat (une par cœur de processeur), traite en parallèle le travail OCR et fusionne le résultat. Une étape cruciale consiste à activer la journalisation des erreurs dans les préférences d'Acrobat, à analyser tous les fichiers .log et à retraiter tous les fichiers d'erreur. Le script (lors de l'utilisation de 4 cœurs) effectue toujours l'OCR plus de deux fois plus rapidement que Acrobat 11 par défaut.

tarcman.
la source
4
Vous pouvez simplement donner la source si vous le souhaitez. S'ils osent le retirer, il peut être facilement restauré.
Joey
De plus, si vous êtes la même personne qui a posté la question, envisagez de fusionner vos deux comptes non enregistrés actuels avec un nouveau compte enregistré. Vous pouvez commencer ici , et lire également ceci pour plus d'informations. Après cela, vous pourrez modifier votre question comme bon vous semble.
Indrek
Je n'essaye pas d'obstruer quoi que ce soit. Étant donné que vous changez constamment de nom d'utilisateur, il semble que vos modifications aient été effectuées par un tiers qui ne semblait pas comprendre la question d'origine. De plus, si vous voulez répondre à votre propre question, vous devez écrire la question et y répondre en même temps.
Isaac Rabinovitch
J'ai fusionné vos comptes (non enregistrés) pour l'instant. Nous vous demandons cependant de ne pas utiliser d'adresse e-mail jetable, mais de vous inscrire sur notre site afin de pouvoir rester connecté, commenter vos questions, etc. De plus, rien ne sera supprimé, rien à craindre. Notez simplement que les modifications anonymes sont toujours examinées plus strictement.
slhck
1
@tarcman Avez-vous la possibilité de publier votre script? Je suis sûr que beaucoup de gens seraient intéressés à l'utiliser
Jason
1

Le multithreading doit être intégré à une application. Le développeur doit écrire du code qui crée des threads et qui décompose la tâche en sous-tâches qui peuvent être allouées à chaque thread. Si les développeurs d'Acrobat ne parviennent pas à le faire pour leur code de reconnaissance OCR, l'utilisateur n'a aucun moyen de créer la logique supplémentaire nécessaire.

Isaac Rabinovitch
la source
2
Si elle peut être appliquée à des plages de pages, vous pouvez probablement essayer de diviser le travail en plusieurs processus, chaque OCR ne faisant que quelques pages, puis la fusion des résultats.
Joey
0

Pour utiliser tous les cœurs pour l'OCR, vous voudrez peut-être regarder PDF-Exchange Editor. Son moteur OCR semble utiliser tous les cœurs de mon système. Une fois que vous atteignez ce niveau de performances, il est logique d'utiliser un SSD.

Il doit y avoir un ajustement de Windows qui lui fera consacrer plus de temps CPU à une seule application filetée qui n'est pas liée aux E / S. Sur mon système, Acrobat n'est pas ralenti par les performances du disque, mais le temps processeur le plus important que j'obtiens pour générer un index est d'environ 30%.

Avouons-le, Acrobat est une application largement utilisée mais mal écrite. Acrobat Pro possède certaines fonctionnalités que vous ne pouvez toujours pas trouver ailleurs (encore).

Len
la source