Numérisation de documents: Comment accélérer la partie logicielle du processus de numérisation? [fermé]

0

Je recherche une solution pour accélérer mon processus de numérisation de documents, en particulier pour les documents qui ne conviennent pas à un numériseur de documents classique doté d'un chargeur automatique de documents (ADF). Pour ces documents, j'utilise actuellement un scanner à plat.

Au début, je pensais qu'un matériel de numérisation plus rapide serait la solution (par exemple, un scanner d'appareil photo au lieu d'un scanner à plat typique). Mais j’ai remarqué que le temps total d’une numérisation ne représente que 20% du matériel de numérisation (mouvement de la tête de numérisation) mais 80% du logiciel (amélioration de l’image et reconnaissance optique des caractères).

Pour accélérer l'analyse, j'examinais les éléments suivants: (a) un logiciel d'analyse qui utiliserait non seulement un cœur / thread du processeur, mais plusieurs cœurs / threads. Malgré des recherches approfondies, je n'ai pas encore trouvé de programme multi-thread pour TWAIN. (b) workflow + software: programme permettant de définir mes propres profils de numérisation. Mais je n'ai pas encore trouvé de logiciel offrant des profils de numérisation et un bon recadrage automatique (et OCR non seulement en anglais). (c) flux de travail, c’est-à-dire déplacer OCR dans une étape distincte (mais je n’y ai pas gagné en vitesse, car le logiciel fourni avec mes scanneurs à plat CanoScan prend le même temps pour une numérisation, que j'inclue ou non OCR)

Comment puis-je accélérer mon balayage?

Pour ceux qui connaissent un logiciel tiers de numérisation de documents sur le marché: verrai-je une différence de vitesse considérable entre un processeur i7 double cœur et un processeur i7 quadricœur?

En tant que logiciel de numérisation de documents, je comprends les logiciels qui incluent des fonctionnalités d’amélioration d’image (redressement, recadrage automatique, par exemple), OCR (pas seulement pour l’anglais), la possibilité d’enregistrer plusieurs types de fichiers (jpg, jpeg2000, TIFF, PDF indexable). , PDF / A) et profils de numérisation (= combinaison définie par l’utilisateur de dpi, paramètres d’amélioration d’image, langue OCR, type de fichier).

utilisateur291737
la source
Une question est: "Pour ceux qui connaissent un logiciel tiers de numérisation de documents sur le marché: verrai-je une différence de vitesse considérable entre un processeur i7 dual-core et un processeur quad-core i7?" Une autre question concerne une recommandation de logiciel avec les spécifications que j'ai données dans le dernier paragraphe.
user291737
Vous avez mentionné la théorie avec votre recommandation: "Un processeur simple cœur de la même vitesse effectuera la même opération qu'un processeur double ou quadruple à 1/2 et 1/4 des vitesses respectées." Je demandais une expérience pratique du logiciel de numérisation de documents sur le marché. Dans le monde réel, avec un logiciel de numérisation de documents: verrai-je une différence de vitesse considérable entre un processeur i7 à double cœur et un processeur à quatre coeurs i7?
user291737
Si vous connaissez un logiciel de numérisation de documents qui exploite pleinement le potentiel d'un processeur quad-core i7, faites-le moi savoir.
user291737
Une autre option est un logiciel qui vous permet de numériser et de post-traiter séparément. Le logiciel de mon scanneur de documents me permet de numériser, puis de faire plus tard de la ROC sur tout un groupe de fichiers d'un lot. Si j'ai besoin de faire de l'OCR, je vais faire les analyses puis, avant de quitter pour la journée, mettre le lot d'OCR en mouvement. À ce stade, il importe peu que cela prenne une heure ou huit, à condition que cela soit fait au moment où je reviens le lendemain.
Steve Rindsberg
En outre, si le problème est rapide, vous pouvez utiliser un pilote ISIS ( en.wikipedia.org/wiki/Image_and_Scanner_Interface_Specification ) correspondant au lieu de son équivalent TWAIN, car il pourrait être plus rapide.
JSanchez

Réponses:

2

Commencez par séparer le processus de numérisation du processus de post-traitement. Pour ce faire, numérisez comme une image à une résolution supérieure 300-600DPI ou plus. Les fichiers seront volumineux, mais seulement temporaires jusqu'à ce que vous post-traitiez. La taille du fichier sera votre plus grand ralentissement ici, alors laissez tomber votre résolution et votre profondeur de bits au niveau le plus bas possible. (par exemple, utilisez une échelle de gris si vous n’avez pas besoin de couleur). Ce que vous ne voulez pas, ce sont des images 24 bits 1200DPI à 8-1 / 2 "x11" qui correspondent à 100 Mo au moins, sauf obligation de votre part; ils prennent trop de temps pour enregistrer et ouvrir.

Ensuite, en utilisant le logiciel qui vous convient, lancez votre post-traitement en lot à votre convenance. Tous les logiciels fonctionnent différemment, vous devrez donc apprendre votre logiciel.

Voici la prise cependant. La plupart des programmes ne s'exécutant que sur 1 cœur de votre processeur multicœur, la meilleure façon de procéder est donc de l'ouvrir plusieurs fois et de répartir les lots entre les instances ouvertes du programme. La plupart des programmes n'ouvrent pas plusieurs instances. Vous devez donc exécuter le programme à partir du menu Démarrer manuellement ou à partir de la commande Exécuter avec un "commutateur" spécial. En fonction de votre programme dépend de la façon dont vous le faites. Acrobat, par exemple, doit être exécuté à partir de la commande d'exécution en tant que "ACROBAT / N" pour ouvrir une nouvelle instance si une instance est déjà ouverte.

Si j'ai plus de 10 000 pages à poster, au cours de la journée, j'ouvrirai 3 instances sur un ordinateur à 4 cœurs et répartir les tâches sur les 3 instances afin que je puisse continuer à utiliser l'ordinateur (le processeur tourne à 75%, laissant ainsi 25 % Pour utilisation au bureau"). La nuit, je vais exécuter 4 instances pour maximiser l'ordinateur.

Mais si je sais que le post-traitement ne prendra pas si longtemps, disons seulement quelques heures, je ne m'embêterai pas à ouvrir des instances; Je vais simplement exécuter un lot et le laisser aller jusqu'à ce qu'il soit terminé. Avec un ordinateur à double cœur, cela vous permettrait d’exécuter votre post-traitement tout en utilisant votre ordinateur. La plupart des lots ne prendront pas autant de temps. Sachez que si vous exécutez 2 ou 3 instances sur un ordinateur double cœur, votre ordinateur risque de ne pas fonctionner comme un ordinateur de bureau pour une utilisation active jusqu'à la fin des lots.

Une autre option, que vous exécutiez des instances ou non, consiste à accéder au gestionnaire de tâches de Windows et à définir une priorité de processeur inférieure à la normale pour que votre travail actif soit prioritaire sur le post-traitement en arrière-plan.

En ce qui concerne la vitesse, plus le nombre de cœurs fonctionnant est élevé, plus le traitement sera rapide. Le problème est que si vous avez un processeur double cœur sur lequel vous exécutez une application à un seul thread, et que vous achetez un quad core comparable et exécutez la même application de la même manière, cela ne va pas aller plus vite. L'astuce consiste donc à exécuter votre application à thread unique plusieurs fois en même temps afin de maximiser les capacités de votre processeur.

À la fin du post-traitement, enregistrez le (s) document (s) au format souhaité, puis effectuez le contrôle de lot par lot avant de supprimer les images.

Si vous utilisez Acrobat et que vous utilisez des lots volumineux, préparez-vous à des problèmes! Rechercher des solutions et trouver plus de personnes avec les mêmes problèmes aussi! Acrobat est un DOULEUR!

Damon
la source
Merci beaucoup pour votre réponse compétente !!! Je savais que de nombreux programmes d’analyse n’exécutaient qu’un seul thread. C'est pourquoi j'espérais obtenir des conseils sur les logiciels exécutant plusieurs threads. Le marché de l'analyse semble être assez particulier avec de nombreuses applications héritées qui contiennent du code vieux de 10 à 20 ans et les sociétés qui vendent ce type de logiciel ne se donnent pas la peine de les mettre à niveau pour utiliser tout le potentiel des processeurs modernes. Je ne savais pas qu'il est possible de démarrer plusieurs instances, merci beaucoup!
user291737
Une question sur la RAM: 8 Go suffisent-ils ou serait-il plus rapide avec 16 Go ou même 32 Go?
user291737
ABBYY FineReader 11 et Omnipage 18 / Professional 18 / Ultimate déclarent prendre en charge les processeurs multicœurs. Avez-vous une expérience avec eux?
user291737
@ user291737 Autocad Architecture est un programme de conception à 6 000 $ + à thread unique, de sorte que ce ne sont pas seulement les programmes vieux de 10 à 20 ans qui sont à thread unique. Adobe Acrobat est également à thread unique. La RAM est une de ces choses où si vous en avez assez, cela ne fera aucune différence. Vérifiez la mémoire dans le moniteur de ressources Windows pour voir si vous en avez assez. Dans probablement 99% des cas pour un ordinateur de bureau, 8 Go devraient suffire. Je ne connais pas les programmes que vous avez mentionnés.
Damon
Votre post-traitement est-il limité à l'OCR ou effectuez-vous également une amélioration d'image dans le post-traitement (par exemple, détramer, réduire la transparence, rognage automatique)? J'ai remarqué qu'avec mon scanner à plat à 300 dpi, le décran de l'écran double presque le temps nécessaire pour terminer la numérisation + le traitement d'une page. Si je pouvais passer au détramage à une étape distincte de post-traitement, je pourrais gagner beaucoup de temps. J'utilise régulièrement le détramage (par exemple lors de la numérisation de pages de magazines contenant du texte et des graphiques). Cela permet de réduire considérablement la taille du fichier.
user291737