Utilisez un téléphone Android et la fonction " Google Lens " récemment ajoutée à l'application de photos et à la fonction d'examen des photos de l'appareil photo.
L'OCR via Google Lens est assez étonnant et précis au-delà de tout logiciel OCR que j'ai jamais utilisé.
Voici quelques captures d'écran décrivant la procédure à l'aide d'un Nokia 3 bon marché (100 USD) , le meilleur téléphone que j'ai eu le plaisir d'utiliser depuis que mon bien-aimé Nexus 4 a abandonné le fantôme.
Je vais détailler un exemple de scan OCR d'un livre grec d'étymologies imprimé en 1976 que je n'ose pas déchirer pour le scan, qui semble avoir une densité de caractères et une police de caractères similaires.
J'ai pris cette photo originale dans des conditions d'éclairage moins qu'idéales, en utilisant tous les paramètres automatiques de l'appareil photo du téléphone, aucune technique photo particulière ni aucun accessoire pour améliorer le résultat n'a été utilisé, on pourrait dire que c'est juste une photo de téléphone prise par un amateur page du livre . (Assurez-vous simplement que le texte est focalisé, aucun OCR ne déchiffrera le texte flou flou)
Cliquez sur l'icône de l'objectif Google, disponible via l'aperçu après avoir pris la photo ou sur la photo elle-même à l'aide de l'application Google photos
Voici -Skynet- ^M^M^M^M^M^M
Je veux dire, Google Lens fait son balayage magique (les points sont un peu effrayants mais ils devaient faire quelque chose pour vous faire savoir que l' IA googley fait son truc, je suppose)
Une fois l'image numérisée, vous trouverez clairement les zones de texte que Google Lens a trouvées sur l'image et leur texte déjà extrait dans la moitié inférieure de l'écran. si vous ne souhaitez que certaines zones et pas d'autres, appuyez simplement sur votre sélection pour les activer / désactiver.
Si vous touchez le texte extrait, il sera placé dans votre presse-papiers pour copier / coller n'importe où sur votre téléphone.
Ensuite, collez simplement le texte sur un document Google Documents. Là, vous pouvez: - corriger les erreurs sur place ou sur votre PC, - partager le document au contenu de votre cœur, - le publier sous forme de page Web avec mise à jour en direct de vos modifications, ou - exporter vers - texte brut, - document Word , - document de bureau ouvert, - livre électronique epub compatible Kindle avec texte reflué, ou - bon vieux PDF non DRMd
On pourrait faire valoir qu'il s'agit probablement de la voie la plus courte vers la publication, avec les choix de production les plus larges possibles.
Vous pouvez tout faire à partir d'un seul appareil (téléphone Android avec les applications appropriées installées) et en finir en un rien de temps avec un taux de précision élevé, essentiellement gratuitement.
Voici le fragment collé de Google docs
Voici le partage d'URL de Google docs, n'hésitez pas à commenter. Vous pouvez également demander à quelqu'un de vous aider à modifier le document à distance et simultanément.
https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk
Enfin, voici un site Web Google Sites publié en utilisant le document susmentionné comme source liée
https://sites.google.com/h-lo.me/ocrsample
Il est compatible avec https, desktop et mobile et selon les goûts, généralement pas douloureux pour les yeux. Pas mal pour un travail total de 15 min et aucun codage.
Il reste un raffinement, à savoir créer des paragraphes appropriés sur le document Google, car Google Lens insère un retour dur après chaque ligne de texte extrait, ce qui fait de chaque ligne son propre paragraphe et cela deviendra un problème si vous souhaitez utiliser Fonctionnalités de Google Docs telles que la table des matières ou lorsque vous exportez votre document vers un livre électronique compatible avec Kindle (perturbe le texte reflué)
Vous pouvez simplement rejoindre chaque ligne le cas échéant en appuyant sur la touche de retour arrière à chaque début de ligne, ou cela pourrait être automatisé avec un script.
Donc, j'écris un module complémentaire de script d'applications que je publierai sous peu pour automatiser ce processus. Je vous ferai savoir ici quand ce sera fait.
Vous pouvez le faire par étapes. Commencez par mettre tout en ligne sous forme de numérisations de pages et mettez à jour au fur et à mesure que vous le pouvez. La reliure à peigne en plastique cerlox ™ facilite son démontage et sa remise en place.
Comme l'impression semble être de type serif normal dans la même taille, les numérisations peuvent être numérisées à l'aide du logiciel de reconnaissance optique de caractères. L'OCR peut vous fournir un projet de fichier texte que vous pouvez relire et publier sur le site Web pour sa forme finale.
Dans le même temps, vous pouvez ranger les photos et autres éléments picturaux.
Vous pouvez le faire à mesure que le temps / les ressources deviennent disponibles pour le projet.
la source
Quelques bonnes réponses ici pour l'aborder vous-même.
Je voudrais ajouter mon expérience de payer quelqu'un d'autre pour le faire pour vous.
J'ai utilisé Digitize My Books au Royaume-Uni (je suis moi-même basé au Royaume-Uni).
J'ai été très très satisfait des résultats: chaque livre est retourné sous forme de PDF contenant un texte consultable (et copiable). Une technique PDF standard est utilisée selon laquelle l'image d'origine de chaque page est conservée mais avec une superposition de texte, de sorte que vous pouvez mettre en surbrillance le texte d'origine sur la page. Très bon rapport qualité / prix. En tant que personne d'outre-mer du Royaume-Uni, vous pouvez toujours leur envoyer les livres.
Ils offrent également une option pour que le livre soit au format de document Word modifiable, à un coût supplémentaire mais très raisonnable.
Si vous ne souhaitez pas que l'original soit retourné, l'option la moins chère serait de choisir un balayage destructif. C'est là que les pages sont prises individuellement du livre et numérisées. Par défaut, le livre d'origine n'est pas retourné, mais je pense que vous pouvez le demander, éventuellement à un coût supplémentaire (par exemple pour les frais de retour), mais les pages seront lâches, après avoir été retirées pour être numérisées individuellement. La numérisation destructive est l'option que j'ai choisie pour tous mes livres et je n'ai pas exigé le retour des originaux.
Ils offrent également une copie non destructive si vous avez besoin de l'original, mais le coût est plus élevé. Ils acceptent également vos propres numérisations numériques si vous avez déjà numérisé un livre vous-même - ils peuvent en faire un document PDF ou Word consultable et capable de copier.
Jetez un œil à leur site Web. Je pense vraiment que c'est la meilleure option: dépenser de l'argent pour gagner du temps, plutôt que de passer du temps pour économiser de l'argent.
Je ne travaille pas pour Digitize My Books, ni aucun intérêt financier pour eux (actionnaire ou autre).
À l'origine, j'avais commencé à «numériser» dans les livres moi-même, en photographiant à l'aide d'un appareil photo reflex numérique (la photographie est plus rapide que la numérisation à plat), chaque page étant ouverte avec un clipboard et un blu-tak. Mais j'ai trouvé que c'était plutôt exigeant en main-d'œuvre.
Si vous êtes toujours désireux de le faire vous-même, ScanTailor est une application Windows Open Source qui formate , divise les doubles pages / paires de pages numérisées en pages individuelles, les redresse et les "déforme". Pour que les pages résultantes apparaissent plates et droites comme vous le souhaitez, cependant, il ne fait pas d'OCR: les résultats sont toujours des images bitmap. Mais au moins, cela permet en quelque sorte d'automatiser par lots le rangement de toute distorsion des pages, en particulier de la copie non destructive où il est difficile pour quelqu'un de disposer les pages pour qu'elles soient complètement plates pour les gros livres.
Mise à jour
Ajout d'informations supplémentaires sur les options de numérisation offertes par un service. ScanTailor plus d'informations. Corrections grammaticales.
la source
Le moyen le plus rapide de le faire est de contacter votre parent et de voir s'il a toujours les fichiers originaux qu'il a utilisés pour créer ce livre. De la photo de la première page, je dirais que cela a été fait sur un ordinateur. Convertissez de {insérer un package de traitement de texte vraiment ancien ici} vers un format actuel et vous avez terminé.
Le deuxième moyen le plus rapide de transformer une pile de documents imprimés en document numérique:
Utilisez ensuite n'importe quel package OCR pour transformer les pages numérisées en fichier Word. J'utilise les fonctionnalités OCR dans la version complète d'Adobe Acrobat à cette fin, mais il existe de nombreux moteurs OCR.
la source
Vous voudrez peut-être essayer un service très peu coûteux: preserve-your-memories.info. Lorsque je le fais moi-même, j'utilise mon scanner pour numériser vers OmniPage, un programme d'OCR, puis enregistrer en tant que fichier pdf qui est entièrement consultable. Étant donné que votre publication est reliée par un peigne en plastique, il est facile de la démonter pour numériser des pages individuelles, puis de la relier. Prendre des photos comme indiqué dans les suggestions ci-dessus est également très réalisable - une bonne parmi de nombreuses approches.
la source