Texte physique en texte numérique

9

Permettez-moi d'abord de préfixer cette question, je ne sais pas quel site StackExchange serait le plus approprié pour cette question, mais je pensais que LifeHacks pourrait fonctionner ...

En 1998, le côté de ma mère de la famille a eu une grande réunion de famille (mon arrière-grand-mère avait dix enfants, donc c'était vraiment un grand rassemblement). Un de mes lointains oncles a écrit une sorte de livre sur l'histoire de nos familles pour cette réunion et ma maman m'a donné le livre à lire. Je ne pouvais pas croire à quel point c'était grand et combien de recherches étaient consacrées au livre. Je voudrais trouver un moyen d'obtenir le livre entier sur un site Web que je ferai où je pourrai ensuite le partager avec tout le monde dans notre famille et finalement préserver l'histoire plus longtemps que ce livre fragile.

Dans l'espoir de ne pas avoir à taper mot pour mot tout ce livre de 300 pages, y a-t-il un moyen de numériser les pages et de les obtenir en texte numérique? Évidemment, je pourrais simplement prendre des photos et créer le site Web en utilisant les images, mais je pense qu'il serait plus avantageux de l'avoir comme texte réel, car cela pourrait mieux apparaître dans les recherches Google lorsque quelqu'un recherche le nom d'un membre de la famille ou quelque chose comme ça. De plus, si quelqu'un dans la famille fait peut-être un projet de recherche sur notre famille, il pourrait copier une partie du texte et le référencer plus facilement.

Est-ce que quelqu'un connaît la meilleure façon de mettre ce vieux livre de famille en texte numérique?

Première page du livre

Livre indiquant l'épaisseur

Kyle Bridenstine
la source

Réponses:

14

Utilisez un téléphone Android et la fonction " Google Lens " récemment ajoutée à l'application de photos et à la fonction d'examen des photos de l'appareil photo.

L'OCR via Google Lens est assez étonnant et précis au-delà de tout logiciel OCR que j'ai jamais utilisé.

Voici quelques captures d'écran décrivant la procédure à l'aide d'un Nokia 3 bon marché (100 USD) , le meilleur téléphone que j'ai eu le plaisir d'utiliser depuis que mon bien-aimé Nexus 4 a abandonné le fantôme.

Je vais détailler un exemple de scan OCR d'un livre grec d'étymologies imprimé en 1976 que je n'ose pas déchirer pour le scan, qui semble avoir une densité de caractères et une police de caractères similaires.

J'ai pris cette photo originale dans des conditions d'éclairage moins qu'idéales, en utilisant tous les paramètres automatiques de l'appareil photo du téléphone, aucune technique photo particulière ni aucun accessoire pour améliorer le résultat n'a été utilisé, on pourrait dire que c'est juste une photo de téléphone prise par un amateur page du livre . (Assurez-vous simplement que le texte est focalisé, aucun OCR ne déchiffrera le texte flou flou)

entrez la description de l'image ici

Cliquez sur l'icône de l'objectif Google, disponible via l'aperçu après avoir pris la photo ou sur la photo elle-même à l'aide de l'application Google photos

entrez la description de l'image ici

Voici -Skynet- ^M^M^M^M^M^MJe veux dire, Google Lens fait son balayage magique (les points sont un peu effrayants mais ils devaient faire quelque chose pour vous faire savoir que l' IA googley fait son truc, je suppose)

entrez la description de l'image ici

Une fois l'image numérisée, vous trouverez clairement les zones de texte que Google Lens a trouvées sur l'image et leur texte déjà extrait dans la moitié inférieure de l'écran. si vous ne souhaitez que certaines zones et pas d'autres, appuyez simplement sur votre sélection pour les activer / désactiver.

Si vous touchez le texte extrait, il sera placé dans votre presse-papiers pour copier / coller n'importe où sur votre téléphone.

entrez la description de l'image ici

Ensuite, collez simplement le texte sur un document Google Documents. Là, vous pouvez: - corriger les erreurs sur place ou sur votre PC, - partager le document au contenu de votre cœur, - le publier sous forme de page Web avec mise à jour en direct de vos modifications, ou - exporter vers - texte brut, - document Word , - document de bureau ouvert, - livre électronique epub compatible Kindle avec texte reflué, ou - bon vieux PDF non DRMd

On pourrait faire valoir qu'il s'agit probablement de la voie la plus courte vers la publication, avec les choix de production les plus larges possibles.

Vous pouvez tout faire à partir d'un seul appareil (téléphone Android avec les applications appropriées installées) et en finir en un rien de temps avec un taux de précision élevé, essentiellement gratuitement.

Voici le fragment collé de Google docs
entrez la description de l'image ici

Voici le partage d'URL de Google docs, n'hésitez pas à commenter. Vous pouvez également demander à quelqu'un de vous aider à modifier le document à distance et simultanément.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Enfin, voici un site Web Google Sites publié en utilisant le document susmentionné comme source liée

https://sites.google.com/h-lo.me/ocrsample

Il est compatible avec https, desktop et mobile et selon les goûts, généralement pas douloureux pour les yeux. Pas mal pour un travail total de 15 min et aucun codage.


Il reste un raffinement, à savoir créer des paragraphes appropriés sur le document Google, car Google Lens insère un retour dur après chaque ligne de texte extrait, ce qui fait de chaque ligne son propre paragraphe et cela deviendra un problème si vous souhaitez utiliser Fonctionnalités de Google Docs telles que la table des matières ou lorsque vous exportez votre document vers un livre électronique compatible avec Kindle (perturbe le texte reflué)

Vous pouvez simplement rejoindre chaque ligne le cas échéant en appuyant sur la touche de retour arrière à chaque début de ligne, ou cela pourrait être automatisé avec un script.

Donc, j'écris un module complémentaire de script d'applications que je publierai sous peu pour automatiser ce processus. Je vous ferai savoir ici quand ce sera fait.

hlecuanda
la source
Grand détail. J'aime cette solution gratuite. Merci!
Kyle Bridenstine
Mon plaisir! Vous avez peut-être même déjà tout ce dont vous avez besoin! :)
hlecuanda
Pour un livre épais, c'est une approche très laborieuse: vous devez retourner manuellement chaque page, puis la photographier.
Hobbes
6

Vous pouvez le faire par étapes. Commencez par mettre tout en ligne sous forme de numérisations de pages et mettez à jour au fur et à mesure que vous le pouvez. La reliure à peigne en plastique cerlox ™ facilite son démontage et sa remise en place.

Comme l'impression semble être de type serif normal dans la même taille, les numérisations peuvent être numérisées à l'aide du logiciel de reconnaissance optique de caractères. L'OCR peut vous fournir un projet de fichier texte que vous pouvez relire et publier sur le site Web pour sa forme finale.

Dans le même temps, vous pouvez ranger les photos et autres éléments picturaux.

Vous pouvez le faire à mesure que le temps / les ressources deviennent disponibles pour le projet.

Stan
la source
Similaire à la réponse précédente, mais pas aussi détaillée.
Trajan Espelien
@TrajanEspelien Quelle réponse précédente? Vérifiez l'horodatage. La réponse a été la première, deux jours avant la soumission hiecuanda. :)
Stan
Oui, mais elle n'a pas autant de détails que l'autre réponse, c'est pourquoi j'ai accepté l'autre à ce sujet. Ce n'est pas le premier arrivé, premier serveur ... c'est la meilleure réponse.
Kyle Bridenstine
@KyleBridenstine No Kidding! J'ai aussi voté pour hiecuanda. C'était une excellente réponse. Au fait, que se passe-t-il si vous n'avez pas de téléphone Android ou si vous ne pouvez pas accéder à Glass? J'ai donné une réponse générique à la question. :)
Stan
1
@KyleBridenstine Merci pour les aimables paroles. Nous sommes d'accord. Je pense que vous avez fait la bonne chose en attendant. La première réponse n'est PAS la meilleure (à moins que ce ne soit pour une raison quelconque. Il y a des délais, après tout.) J'ai envoyé le lien vers votre question et la bonne réponse de hiecuanda à un collègue qui doit faire la même chose avec une énorme pile de dossiers scolaires de Brésil!
Stan
2

Quelques bonnes réponses ici pour l'aborder vous-même.

Je voudrais ajouter mon expérience de payer quelqu'un d'autre pour le faire pour vous.

J'ai utilisé Digitize My Books au Royaume-Uni (je suis moi-même basé au Royaume-Uni).

J'ai été très très satisfait des résultats: chaque livre est retourné sous forme de PDF contenant un texte consultable (et copiable). Une technique PDF standard est utilisée selon laquelle l'image d'origine de chaque page est conservée mais avec une superposition de texte, de sorte que vous pouvez mettre en surbrillance le texte d'origine sur la page. Très bon rapport qualité / prix. En tant que personne d'outre-mer du Royaume-Uni, vous pouvez toujours leur envoyer les livres.

Ils offrent également une option pour que le livre soit au format de document Word modifiable, à un coût supplémentaire mais très raisonnable.

Si vous ne souhaitez pas que l'original soit retourné, l'option la moins chère serait de choisir un balayage destructif. C'est là que les pages sont prises individuellement du livre et numérisées. Par défaut, le livre d'origine n'est pas retourné, mais je pense que vous pouvez le demander, éventuellement à un coût supplémentaire (par exemple pour les frais de retour), mais les pages seront lâches, après avoir été retirées pour être numérisées individuellement. La numérisation destructive est l'option que j'ai choisie pour tous mes livres et je n'ai pas exigé le retour des originaux.

Ils offrent également une copie non destructive si vous avez besoin de l'original, mais le coût est plus élevé. Ils acceptent également vos propres numérisations numériques si vous avez déjà numérisé un livre vous-même - ils peuvent en faire un document PDF ou Word consultable et capable de copier.

Jetez un œil à leur site Web. Je pense vraiment que c'est la meilleure option: dépenser de l'argent pour gagner du temps, plutôt que de passer du temps pour économiser de l'argent.

Je ne travaille pas pour Digitize My Books, ni aucun intérêt financier pour eux (actionnaire ou autre).

À l'origine, j'avais commencé à «numériser» dans les livres moi-même, en photographiant à l'aide d'un appareil photo reflex numérique (la photographie est plus rapide que la numérisation à plat), chaque page étant ouverte avec un clipboard et un blu-tak. Mais j'ai trouvé que c'était plutôt exigeant en main-d'œuvre.

Si vous êtes toujours désireux de le faire vous-même, ScanTailor est une application Windows Open Source qui formate , divise les doubles pages / paires de pages numérisées en pages individuelles, les redresse et les "déforme". Pour que les pages résultantes apparaissent plates et droites comme vous le souhaitez, cependant, il ne fait pas d'OCR: les résultats sont toujours des images bitmap. Mais au moins, cela permet en quelque sorte d'automatiser par lots le rangement de toute distorsion des pages, en particulier de la copie non destructive où il est difficile pour quelqu'un de disposer les pages pour qu'elles soient complètement plates pour les gros livres.

Mise à jour

Ajout d'informations supplémentaires sur les options de numérisation offertes par un service. ScanTailor plus d'informations. Corrections grammaticales.

therobyouknow
la source
1

Le moyen le plus rapide de le faire est de contacter votre parent et de voir s'il a toujours les fichiers originaux qu'il a utilisés pour créer ce livre. De la photo de la première page, je dirais que cela a été fait sur un ordinateur. Convertissez de {insérer un package de traitement de texte vraiment ancien ici} vers un format actuel et vous avez terminé.

Le deuxième moyen le plus rapide de transformer une pile de documents imprimés en document numérique:

  1. Retirez la reliure.
  2. Coupez le bord gauche des pages pour vous débarrasser des trous. Les trous interfèrent avec un chargeur de documents.
  3. Parcourez le livre et dépliez les plis et autres dommages qui pourraient interférer avec un chargeur de documents.
  4. Trouvez n'importe quelle imprimante recto verso raisonnablement moderne qui a un chargeur de documents et une fonction de numérisation. Numérisez au format PDF.

Utilisez ensuite n'importe quel package OCR pour transformer les pages numérisées en fichier Word. J'utilise les fonctionnalités OCR dans la version complète d'Adobe Acrobat à cette fin, mais il existe de nombreux moteurs OCR.

Hobbes
la source
0

Vous voudrez peut-être essayer un service très peu coûteux: preserve-your-memories.info. Lorsque je le fais moi-même, j'utilise mon scanner pour numériser vers OmniPage, un programme d'OCR, puis enregistrer en tant que fichier pdf qui est entièrement consultable. Étant donné que votre publication est reliée par un peigne en plastique, il est facile de la démonter pour numériser des pages individuelles, puis de la relier. Prendre des photos comme indiqué dans les suggestions ci-dessus est également très réalisable - une bonne parmi de nombreuses approches.

Alan
la source