Le titre demande tout. J'ai devant moi une tâche de saisie de données qui ne me passionne pas trop: 50 à 100 pages de journaux manuscrits de déconnexion / connexion.
Le format des journaux peut aider. Les pages sont partitionnées en lignes et colonnes clairement délimitées (13r x 6c avec une ligne d'en-tête typée supplémentaire). Pour m'aider davantage, trois colonnes sont liées à la date / heure (date, délai, heure d'entrée). De plus, les données de deux des colonnes (ressource et nom) sont plus ou moins énumérées, de sorte que, par exemple, le nom "Smith" peut apparaître maintes et maintes fois dans la colonne de nom, à chaque fois avec la même écriture. La dernière colonne, "Notes", est de forme libre, mais si je pouvais automatiser les 6 colonnes précédentes, cela ne me dérangerait pas d'entrer des notes à la main.
Aucune suggestion? (En plus de «commencer à taper».)
PS S'il y a un meilleur site SE pour demander ceci, faites-le moi savoir, je vais le demander.
Réponses:
tesseract est probablement la bibliothèque OCR la meilleure et la plus répandue.
Il a été testé avec l'écriture manuscrite et n'est pas trop mal - bien que l'écriture manuscrite ne soit pas une chose facile à lire. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf
la source
Si vous avez moins de 10 pages, Captricity peut le faire gratuitement.Hors de la boîte, il n'y a pas de bonnes solutions open source à ce que vous recherchez. Les solutions payantes coûtent cher à acquérir. Ceci est basé sur notre expérience dans la création d'un service OCR d'écriture manuscrite chez Captricity . Nous utilisons tesseract dans la production, mais seulement comme un vote qui est combiné avec l'intelligence humaine (crowdsourcing) pour fournir un haut niveau de qualité.
J'espère que cela pourra aider!
la source