J'ai toujours trouvé que la technologie OCR était en retard sur les systèmes open source. J'ai également regardé le projet Ocropus depuis ses débuts. J'ai essayé ce que j'ai entendu dire que c'était le meilleur moteur d'OCR disponible pour Linux, Tesseract , et je l'ai trouvé cruellement manquant pour les documents commerciaux. Existe-t-il d'autres implémentations OCR plus prometteuses? Qu'en est-il de l'objectif encore plus optimiste d'interprétation de l'écriture manuscrite? Qu'est-ce qui est possible sur les systèmes * nix dans ce domaine?
opensource-projects
ocr
documents
jjclarkson
la source
la source
Réponses:
Tesseract
En 2018, le meilleur logiciel OCR open source disponible est Tesseract 4 (beta) avec son nouveau modèle OCR de réseau neuronal LSTM . Ses performances OCR sont bien meilleures que le modèle OCR précédent utilisé dans la version 3.
Exemple (produire un fichier PDF
output.pdf
avec une couche de texte pour un document allemand numérisé):Imprimez le texte reconnu sur stdout:
Liste des langues installées:
La prise en charge de nombreuses langues / scripts est disponible sous la forme d'un ensemble de données téléchargeables , par exemple il existe même un ensemble de données pour Fraktur.
Avec le nouveau modèle LSTM, Tesseract s'inspire du projet de recherche OCRopus .
La version 3 de Tesseract fonctionne relativement mal même sur des images d'entrée de bonne qualité, c'est-à-dire qu'elle détecte souvent à tort des caractères uniques dans des pixels de poussière (en dehors de tout contexte textuel) et introduit facilement des erreurs de caractère unique dans des mots bien connus.
Cunéiforme
Les performances de l'OCR cunéiforme ne sont pas si mauvaises, mais elles ne sont pas activement maintenues (dernière version en 2011, version 1.1) et se bloquent facilement et ont d'autres problèmes:
Vous pouvez désactiver l'algorithme de mise en page comme ceci:
(
-l
spécifie la langue du document source)ocrad
Le texte est imprimé par défaut sur stdout.
Dans un document commercial, il manquait un mot souligné, ce qui n'était pas le cas de cunéiforme / tesseract / gocr.
gocr
Le texte est imprimé par défaut sur stdout.
Matériel
Sane prend très bien en charge de nombreux scanners à alimentation automatique de documents (ADF), par exemple ceux d' Avision et de Fujitsu .
Inclus avec Sane est le
scanimage
programme en ligne de commande que vous pouvez utiliser pour construire des pipelines de scan scriptés (cf. par exemple monadf2pdf.py
script).la source
J'ai trouvé une question similaire sur StackOverflow et le SDK OCR Asprise , l'un des produits commerciaux liés , dispose d'une version Linux.
la source
Il existe peu d'outils de ligne de commande OCR populaires:
Tesseract ( ReadMe , FAQ ) (Python)
Également disponible pour: Tesseract .NET , Tesseract iOS
Usage:
Exemple: rendre la recherche PDF existante (OCR) via la ligne de commande / script
GOCR
OCRopus ™ ( FAQ ) (écrit en Python, NumPy et SciPy)
Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Autre déjà suggéré: ABBYY CLI OCR pour Linux , Asprise OCR .
Lisez aussi:
Pour une liste plus complète, consultez: Liste des logiciels de reconnaissance optique de caractères sur Wikipedia.
la source
... L'OCR est bien plus que "la reconnaissance de caractères". Gestion des images, prétraitement - analyse de page / mise en page pour trouver les textes, images, tableaux ou codes-barres. Pour la reconnaissance, vous devez gérer différentes polices, tailles et langues. Ceci est important car pour obtenir de bons résultats, vous devez utiliser des dictionnaires et des définitions de langue. Enfin, les gens attendent plus d'options d'exportation que le texte (par exemple, XML, RTF ou PDF interrogeable). Il existe des options commerciales pour les SDK, mais elles ne sont pas bon marché et gratuites.
Récemment, j'ai trouvé un OCR CLI pour Linux d'ABBYY . Il y a un essai gratuit de 100 pages.
la source
Si vous avez un budget, je recommande fortement ABBYY FineReader Engine CLI pour Linux . Notre entreprise l'utilise dans notre application Web depuis un an et nous prévoyons de renouveler la licence. Très bonne qualité de reconnaissance, interface en ligne de commande, reconnaissance dans de nombreuses langues.
la source