Je recherche une solution pour accélérer mon processus de numérisation de documents, en particulier pour les documents qui ne conviennent pas à un numériseur de documents classique doté d'un chargeur automatique de documents (ADF). Pour ces documents, j'utilise actuellement un scanner à plat.
Au début, je pensais qu'un matériel de numérisation plus rapide serait la solution (par exemple, un scanner d'appareil photo au lieu d'un scanner à plat typique). Mais j’ai remarqué que le temps total d’une numérisation ne représente que 20% du matériel de numérisation (mouvement de la tête de numérisation) mais 80% du logiciel (amélioration de l’image et reconnaissance optique des caractères).
Pour accélérer l'analyse, j'examinais les éléments suivants: (a) un logiciel d'analyse qui utiliserait non seulement un cœur / thread du processeur, mais plusieurs cœurs / threads. Malgré des recherches approfondies, je n'ai pas encore trouvé de programme multi-thread pour TWAIN. (b) workflow + software: programme permettant de définir mes propres profils de numérisation. Mais je n'ai pas encore trouvé de logiciel offrant des profils de numérisation et un bon recadrage automatique (et OCR non seulement en anglais). (c) flux de travail, c’est-à-dire déplacer OCR dans une étape distincte (mais je n’y ai pas gagné en vitesse, car le logiciel fourni avec mes scanneurs à plat CanoScan prend le même temps pour une numérisation, que j'inclue ou non OCR)
Comment puis-je accélérer mon balayage?
Pour ceux qui connaissent un logiciel tiers de numérisation de documents sur le marché: verrai-je une différence de vitesse considérable entre un processeur i7 double cœur et un processeur i7 quadricœur?
En tant que logiciel de numérisation de documents, je comprends les logiciels qui incluent des fonctionnalités d’amélioration d’image (redressement, recadrage automatique, par exemple), OCR (pas seulement pour l’anglais), la possibilité d’enregistrer plusieurs types de fichiers (jpg, jpeg2000, TIFF, PDF indexable). , PDF / A) et profils de numérisation (= combinaison définie par l’utilisateur de dpi, paramètres d’amélioration d’image, langue OCR, type de fichier).
la source
Réponses:
Commencez par séparer le processus de numérisation du processus de post-traitement. Pour ce faire, numérisez comme une image à une résolution supérieure 300-600DPI ou plus. Les fichiers seront volumineux, mais seulement temporaires jusqu'à ce que vous post-traitiez. La taille du fichier sera votre plus grand ralentissement ici, alors laissez tomber votre résolution et votre profondeur de bits au niveau le plus bas possible. (par exemple, utilisez une échelle de gris si vous n’avez pas besoin de couleur). Ce que vous ne voulez pas, ce sont des images 24 bits 1200DPI à 8-1 / 2 "x11" qui correspondent à 100 Mo au moins, sauf obligation de votre part; ils prennent trop de temps pour enregistrer et ouvrir.
Ensuite, en utilisant le logiciel qui vous convient, lancez votre post-traitement en lot à votre convenance. Tous les logiciels fonctionnent différemment, vous devrez donc apprendre votre logiciel.
Voici la prise cependant. La plupart des programmes ne s'exécutant que sur 1 cœur de votre processeur multicœur, la meilleure façon de procéder est donc de l'ouvrir plusieurs fois et de répartir les lots entre les instances ouvertes du programme. La plupart des programmes n'ouvrent pas plusieurs instances. Vous devez donc exécuter le programme à partir du menu Démarrer manuellement ou à partir de la commande Exécuter avec un "commutateur" spécial. En fonction de votre programme dépend de la façon dont vous le faites. Acrobat, par exemple, doit être exécuté à partir de la commande d'exécution en tant que "ACROBAT / N" pour ouvrir une nouvelle instance si une instance est déjà ouverte.
Si j'ai plus de 10 000 pages à poster, au cours de la journée, j'ouvrirai 3 instances sur un ordinateur à 4 cœurs et répartir les tâches sur les 3 instances afin que je puisse continuer à utiliser l'ordinateur (le processeur tourne à 75%, laissant ainsi 25 % Pour utilisation au bureau"). La nuit, je vais exécuter 4 instances pour maximiser l'ordinateur.
Mais si je sais que le post-traitement ne prendra pas si longtemps, disons seulement quelques heures, je ne m'embêterai pas à ouvrir des instances; Je vais simplement exécuter un lot et le laisser aller jusqu'à ce qu'il soit terminé. Avec un ordinateur à double cœur, cela vous permettrait d’exécuter votre post-traitement tout en utilisant votre ordinateur. La plupart des lots ne prendront pas autant de temps. Sachez que si vous exécutez 2 ou 3 instances sur un ordinateur double cœur, votre ordinateur risque de ne pas fonctionner comme un ordinateur de bureau pour une utilisation active jusqu'à la fin des lots.
Une autre option, que vous exécutiez des instances ou non, consiste à accéder au gestionnaire de tâches de Windows et à définir une priorité de processeur inférieure à la normale pour que votre travail actif soit prioritaire sur le post-traitement en arrière-plan.
En ce qui concerne la vitesse, plus le nombre de cœurs fonctionnant est élevé, plus le traitement sera rapide. Le problème est que si vous avez un processeur double cœur sur lequel vous exécutez une application à un seul thread, et que vous achetez un quad core comparable et exécutez la même application de la même manière, cela ne va pas aller plus vite. L'astuce consiste donc à exécuter votre application à thread unique plusieurs fois en même temps afin de maximiser les capacités de votre processeur.
À la fin du post-traitement, enregistrez le (s) document (s) au format souhaité, puis effectuez le contrôle de lot par lot avant de supprimer les images.
Si vous utilisez Acrobat et que vous utilisez des lots volumineux, préparez-vous à des problèmes! Rechercher des solutions et trouver plus de personnes avec les mêmes problèmes aussi! Acrobat est un DOULEUR!
la source