J'étais chez mon grand-parent le week-end dernier. Ma grand-mère a sorti ce livre géant (~ 1400 pages) de son histoire familiale remontant à 1630 environ. Ballot géant que je suis, je pensais que ce serait génial d'avoir toutes les informations stockées dans une base de données et disponibles sur le Web. Je peux gérer toute la programmation Web et les expressions régulières et ce qui ne l'est pas, mais ce que je ne sais pas, c'est la meilleure façon d'obtenir le texte d'un livre à un ordinateur.
Je sais qu'une sorte d'OCR sera nécessaire, d'après les petites recherches que j'ai faites, il semble que mes options soient:
- prendre une photo de chaque page avec un appareil photo puis traiter les photos avec le logiciel OCR
- utiliser un scanner pour numériser chaque page, puis traiter avec le logiciel OCR
- utilisez une sorte d'appareil portable, comme celui-ci .
Quelqu'un at-il des idées sur la meilleure façon de résoudre ce problème? Je ne veux pas détruire le livre, car pour autant que je sache, il ne peut pas être remplacé. C'est probablement la seule fois où je vais numériser un gros livre, donc je ne pense pas que je veux dépenser plus de 250 $ sur n'importe quel type d'appareil. Cela ne me dérange pas un effort manuel ici (je réalise que cela prendra probablement des mois), mais j'aimerais trouver la méthode la plus efficace possible.
Remarque sur le livre: il n'a que 20 ans environ, il est donc en assez bon état. C'est monochrome et les pages n'ont pas commencé à jaunir. Puisqu'il est si grand, je m'inquiète des ombres possibles lorsque le texte descend près de la reliure.
Réponses:
Je suis tombé sur cela sur Lifehacker il y a quelque temps, et c'est depuis l'un de mes meilleurs projets de bricolage.
Remplacez l'iPhone par n'importe quel appareil photo ou image, et vous obtenez une pile de jpegs haute résolution sympas prêts pour vous à l'OCR avec n'importe quel logiciel, même (urks!) MS Office ...;)
Pas cher. Efficace. DIY. Vous ne pouvez pas battre une idée comme ça.
EDIT: Les commentaires ont soulevé quelques points sur les ombres, les recourbements de page, etc. Assez facilement résolus pour quiconque a littéralement copié des textes de bibliothèque.
Ajoutez plusieurs sources de lumière pour éclairer le livre et éliminez les ombres.
incliner le livre à 90 degrés par rapport aux pages ne se recourbe pas vers les reliures du milieu. Il préserve également la reliure.
Je vais voir si je peux donner un exemple et en créer un moi-même.
EDIT 2: échantillon téléchargé de la façon dont vous devez tenir le livre, et remarquez également la source de lumière à partir de la gauche.
la source
D'après ce que je sais, ABBYY fait le meilleur logiciel d'OCR, mais ce n'est pas gratuit. Vous devriez essayer d'utiliser une version d'essai d' ABBYY FineReader , peut-être que cela vous aidera.
la source
Vous devrez capturer l'image d'une manière ou d'une autre. Divers services existent pour le faire pour vous. Vous aurez également besoin d'une personne qui connaît le contenu du texte pour relire, car l'OCR n'est pas encore parfait. Surtout avec quelque chose d'écrit à la main.
D'autres discutent de votre question ici: http://ask.metafilter.com/92506/scan-my-books
Certaines entreprises le feront pour vous: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html
Certains logiciels gratuits: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
la source
Pour un projet important et important pour vous et votre projet familial comme celui-ci, un scanner de livres bricolage peut être le chemin à parcourir, certains modèles même des tourneurs de pages sportives - http://www.diybookscanner.org/ Celui-ci ne prend pas en charge nativement l'OCR , mais tire 600 pages par heure et vous pouvez l'exécuter via l'OCR après coup http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/
la source
Vous voudrez peut-être voir si une université près de chez vous a un scanner de livre entier , puis supplier / soudoyer un étudiant pour qu'il passe votre livre en revue.
la source
Je recommanderais un scanner à plat truqué pour la numérisation de livres ou un scanner de livre entier comme mentionné par Chris.
Si vous le pouvez, compilez vos images dans un format TIFF car c'est la norme de l'industrie en matière de systèmes de gestion de documents.
Pour faire de l'OCR, je recommanderais OCR tesseract car c'est le cadre sur lequel Google a développé son projet de livres.
la source
bien que cela semble tentant d'automatiser le processus, vous voudrez peut-être investir un peu plus de temps et de travail, car ce livre particulier est une affaire personnelle. L'OCR fera l'affaire, mais vous devrez relire page par page et comparer avec l'original. gardez à l'esprit, les erreurs de l'auteur font partie de l'accord, ne les corrigez pas (créez des notes de bas de page si vous vous sentez si enclin). prenez votre temps, ne vous mettez pas sous pression, la numérisation de livres est un travail d'âne mais la minutie est payante et vous vous retrouverez avec une fine copie numérique de la chronique de votre famille. bonne chance dans vos efforts :)
la source
Au travail, nous utilisons un scanner de livres Plustek Optibook 3600 qui coûte environ 250 $ .
Il s'agit essentiellement d'un scanner à plat standard, mais avec la plaque de verre allant jusqu'au bord du scanner afin que la page du livre puisse être placée à plat sur la plaque. Cela élimine l'ombre de la colonne vertébrale et évite d'endommager les livres.
la source