J'ai plusieurs milliers de pages de pages de livres numérisées. Chaque page est enregistrée individuellement au format JPG. L'écriture est claire, mais les polices varient et les pages contiennent des images et des illustrations.
Je dois créer une liste de tous les mots apparaissant dans chaque fichier JPG. Existe-t-il un outil en ligne de commande pour numériser une image répertoriant les mots qui apparaissent? Il n'a pas besoin d'avoir une numérisation parfaite, juste une estimation.
command-line
ocr
Village
la source
la source
Réponses:
tesseract est probablement la solution la plus utilisée ici. Il est disponible dans la plupart des référentiels de packages, par exemple,
et peut être utilisé avec
la source
Installer
imagemagick
,pdftotext
(trouvé dans un package nommépoppler-utils
dans certains gestionnaires de packages) et ocrmypdf . Ce dernier est un logiciel OCR rapide (ocr prend beaucoup de CPU, et il est configuré pour utiliser tous vos cœurs), open-source et fréquemment mis à jour. Cette approche est peut-être exagérée car elle essaie en fait d'attribuer une chaîne à chaque mot au lieu de simplement étiqueter un mot, mais j'ai eu beaucoup de mal à trouver un logiciel OCR open source bon et facile à utiliser en général. Ensuite, dans le répertoire où vous avez enregistré tous vos JPG:la source
ocrmypdf
a fait ma journéeAugmentez le fichier image.png de 480%, passez en niveaux de gris, remplissez avec du blanc, affinez puis extrayez en utilisant l'OCR tesseract. Cela fonctionne bien la plupart du temps pour moi, à l'exception des très grandes polices et du blanc sur noir. Si les polices sont très grandes, n'augmentez que de 200% ou 300%.
Le résultat est dans file.txt.
la source
Pour les utilisateurs de Linux, rien ne fonctionne aussi bien que d'utiliser Calibre pour convertir un pdf en docx. https://calibre-ebook.com/download_linux
la source
TL; DR
for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done
Source: https://help.ubuntu.com/community/OCR
la source