Existe-t-il de bons programmes OCR d'écriture manuscrite open source (enfin gratuits)?

16

Le titre demande tout. J'ai devant moi une tâche de saisie de données qui ne me passionne pas trop: 50 à 100 pages de journaux manuscrits de déconnexion / connexion.

Le format des journaux peut aider. Les pages sont partitionnées en lignes et colonnes clairement délimitées (13r x 6c avec une ligne d'en-tête typée supplémentaire). Pour m'aider davantage, trois colonnes sont liées à la date / heure (date, délai, heure d'entrée). De plus, les données de deux des colonnes (ressource et nom) sont plus ou moins énumérées, de sorte que, par exemple, le nom "Smith" peut apparaître maintes et maintes fois dans la colonne de nom, à chaque fois avec la même écriture. La dernière colonne, "Notes", est de forme libre, mais si je pouvais automatiser les 6 colonnes précédentes, cela ne me dérangerait pas d'entrer des notes à la main.

Aucune suggestion? (En plus de «commencer à taper».)

PS S'il y a un meilleur site SE pour demander ceci, faites-le moi savoir, je vais le demander.

psoft
la source
1
Pouvez-vous publier un exemple d'analyse du journal?
Martin Thompson
1
Ne vous embêtez pas avec Captricity, ils vous demandent votre e-mail et vous envoient un "lien e-mail" sans lien.
Et c'est ce qui se passe quand on se confond avec les termes «open source» et «gratuit» ... que l'on a une entreprise qui essaie de tirer parti du marché en donnant l'idée que «open source» est égal à «mauvais» ».
Joan

Réponses:

6

tesseract est probablement la bibliothèque OCR la meilleure et la plus répandue.

Il a été testé avec l'écriture manuscrite et n'est pas trop mal - bien que l'écriture manuscrite ne soit pas une chose facile à lire. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf

Martin Beckett
la source
Tesseract est certainement une bonne option si vous recherchez une source libre / ouverte. Ce n'est pas 100%, mais il obtient la plupart du temps des résultats assez précis.
Capitaine Kenpachi,
4

Si vous avez moins de 10 pages, Captricity peut le faire gratuitement.

Hors de la boîte, il n'y a pas de bonnes solutions open source à ce que vous recherchez. Les solutions payantes coûtent cher à acquérir. Ceci est basé sur notre expérience dans la création d'un service OCR d'écriture manuscrite chez Captricity . Nous utilisons tesseract dans la production, mais seulement comme un vote qui est combiné avec l'intelligence humaine (crowdsourcing) pour fournir un haut niveau de qualité.

J'espère que cela pourra aider!

kuang
la source