Solution OCR pratique pour convertir un gros livre au format numérique?

12

J'étais chez mon grand-parent le week-end dernier. Ma grand-mère a sorti ce livre géant (~ 1400 pages) de son histoire familiale remontant à 1630 environ. Ballot géant que je suis, je pensais que ce serait génial d'avoir toutes les informations stockées dans une base de données et disponibles sur le Web. Je peux gérer toute la programmation Web et les expressions régulières et ce qui ne l'est pas, mais ce que je ne sais pas, c'est la meilleure façon d'obtenir le texte d'un livre à un ordinateur.

Je sais qu'une sorte d'OCR sera nécessaire, d'après les petites recherches que j'ai faites, il semble que mes options soient:

  1. prendre une photo de chaque page avec un appareil photo puis traiter les photos avec le logiciel OCR
  2. utiliser un scanner pour numériser chaque page, puis traiter avec le logiciel OCR
  3. utilisez une sorte d'appareil portable, comme celui-ci .

Quelqu'un at-il des idées sur la meilleure façon de résoudre ce problème? Je ne veux pas détruire le livre, car pour autant que je sache, il ne peut pas être remplacé. C'est probablement la seule fois où je vais numériser un gros livre, donc je ne pense pas que je veux dépenser plus de 250 $ sur n'importe quel type d'appareil. Cela ne me dérange pas un effort manuel ici (je réalise que cela prendra probablement des mois), mais j'aimerais trouver la méthode la plus efficace possible.

Remarque sur le livre: il n'a que 20 ans environ, il est donc en assez bon état. C'est monochrome et les pages n'ont pas commencé à jaunir. Puisqu'il est si grand, je m'inquiète des ombres possibles lorsque le texte descend près de la reliure.


la source
1
Soit dit en passant, si le livre n'a que 20 ans et que les informations remontent aux années 1600, où est le matériel d'origine? Cela pourrait aussi être agréable à capturer!
Craig
Ouais, ce serait cool aussi. Je vais voir si je peux retrouver l'auteur original.

Réponses:

8

Je suis tombé sur cela sur Lifehacker il y a quelque temps, et c'est depuis l'un de mes meilleurs projets de bricolage.

entrez la description de l'image ici

Remplacez l'iPhone par n'importe quel appareil photo ou image, et vous obtenez une pile de jpegs haute résolution sympas prêts pour vous à l'OCR avec n'importe quel logiciel, même (urks!) MS Office ...;)

Pas cher. Efficace. DIY. Vous ne pouvez pas battre une idée comme ça.

EDIT: Les commentaires ont soulevé quelques points sur les ombres, les recourbements de page, etc. Assez facilement résolus pour quiconque a littéralement copié des textes de bibliothèque.

Ajoutez plusieurs sources de lumière pour éclairer le livre et éliminez les ombres.

incliner le livre à 90 degrés par rapport aux pages ne se recourbe pas vers les reliures du milieu. Il préserve également la reliure.

Je vais voir si je peux donner un exemple et en créer un moi-même.

EDIT 2: échantillon téléchargé de la façon dont vous devez tenir le livre, et remarquez également la source de lumière à partir de la gauche.

entrez la description de l'image ici

caliban
la source
C'est génial! J'aimerais pouvoir faire ça :)
alex
Cependant, vous avez besoin d'un véritable appareil photo pour le faire, et d'une bonne qualité, ou vous vous retrouverez avec une image que vous ne pouvez pas exploiter, en particulier à partir d'un livre très ancien. C'est donc loin d'être bon marché.
Gnoupi
Très intéressant. Je me demande comment cela fonctionnerait avec un livre, compte tenu des ombres qu'il y aurait probablement entre les pages.
Si les pages sont pliées ou ont des ombres, vous aurez des problèmes pour que le logiciel OCR reconnaisse les lettres.
alex
ajoutez plusieurs sources de lumière pour éclairer le livre et éliminez les ombres. inclinez le livre à 90 degrés afin que les pages ne s'enroulent pas vers les reliures du milieu. C'est du simple bon sens, nous le faisons tout le temps au collège en prenant des photos des textes de la bibliothèque.
caliban
3

D'après ce que je sais, ABBYY fait le meilleur logiciel d'OCR, mais ce n'est pas gratuit. Vous devriez essayer d'utiliser une version d'essai d' ABBYY FineReader , peut-être que cela vous aidera.

alex
la source
1

Vous devrez capturer l'image d'une manière ou d'une autre. Divers services existent pour le faire pour vous. Vous aurez également besoin d'une personne qui connaît le contenu du texte pour relire, car l'OCR n'est pas encore parfait. Surtout avec quelque chose d'écrit à la main.

D'autres discutent de votre question ici: http://ask.metafilter.com/92506/scan-my-books

Certaines entreprises le feront pour vous: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Certains logiciels gratuits: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

NickSentowski
la source
1

Pour un projet important et important pour vous et votre projet familial comme celui-ci, un scanner de livres bricolage peut être le chemin à parcourir, certains modèles même des tourneurs de pages sportives - http://www.diybookscanner.org/ Celui-ci ne prend pas en charge nativement l'OCR , mais tire 600 pages par heure et vous pouvez l'exécuter via l'OCR après coup http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

Xaq Fixx
la source
0

Vous voudrez peut-être voir si une université près de chez vous a un scanner de livre entier , puis supplier / soudoyer un étudiant pour qu'il passe votre livre en revue.

Chris Nava
la source
0

Je recommanderais un scanner à plat truqué pour la numérisation de livres ou un scanner de livre entier comme mentionné par Chris.

Si vous le pouvez, compilez vos images dans un format TIFF car c'est la norme de l'industrie en matière de systèmes de gestion de documents.

Pour faire de l'OCR, je recommanderais OCR tesseract car c'est le cadre sur lequel Google a développé son projet de livres.

Greg Buehler
la source
0

bien que cela semble tentant d'automatiser le processus, vous voudrez peut-être investir un peu plus de temps et de travail, car ce livre particulier est une affaire personnelle. L'OCR fera l'affaire, mais vous devrez relire page par page et comparer avec l'original. gardez à l'esprit, les erreurs de l'auteur font partie de l'accord, ne les corrigez pas (créez des notes de bas de page si vous vous sentez si enclin). prenez votre temps, ne vous mettez pas sous pression, la numérisation de livres est un travail d'âne mais la minutie est payante et vous vous retrouverez avec une fine copie numérique de la chronique de votre famille. bonne chance dans vos efforts :)


la source
en fait, c'est un très bon point. Je n'avais pas envisagé de rendre le contenu original du livre disponible sous forme numérique, mais tant que je l'ai, je peux aussi bien faire une version .pdf.
pourquoi PDF? pensez HTML. et vous pourriez aussi bien conserver les analyses originales, même si vous vous retrouverez avec une énorme quantité de données.
Mon idée était d'avoir toutes les informations de naissance / lignée dans une base de données, afin de pouvoir créer une interface Web qui faciliterait la navigation / recherche / mise à jour. Je prévois de travailler sur toutes les fautes de frappe de cette version. De plus, j'ai des cousins ​​qui n'y sont pas et ce serait bien de les ajouter. Je pensais au pdf parce que ce serait bien d'avoir quelque chose qui ressemblerait au livre original avec les numéros de page originaux et tels intacts. Cette version, je la laisserais seule et garderais toutes les fautes de frappe du livre.
0

Au travail, nous utilisons un scanner de livres Plustek Optibook 3600 qui coûte environ 250 $ .
Il s'agit essentiellement d'un scanner à plat standard, mais avec la plaque de verre allant jusqu'au bord du scanner afin que la page du livre puisse être placée à plat sur la plaque. Cela élimine l'ombre de la colonne vertébrale et évite d'endommager les livres.

entrez la description de l'image ici

pelms
la source
Avez-vous déjà essayé de l'utiliser avec un livre très épais? C'est comme 3 pouces d'épaisseur.
Si vous pouvez l'ouvrir à 90 ° avec la page raisonnablement plate, cela devrait aller. Essayez sur le bord d'une table.
pelms