Bonne OCR gratuite avec interface graphique pour corriger les erreurs? (Pour les fenêtres)

9

J'ai utilisé SimpleOCR , qui a une belle interface graphique pour corriger les erreurs. Malheureusement, cela fait beaucoup d'erreurs! (et souffre d'autres bugs et limitations)

D'un autre côté, Tesseract est plus précis mais n'a aucune interface graphique.

Ma question est, existe-t-il un programme OCR gratuit pour Windows qui a une belle interface graphique et un faible taux d'erreur? Je veux qu'il mette en évidence les mots suspects (par incertitude OCR, pas seulement la vérification orthographique) et montre le mot original (bitmap) pendant que je modifie le mot OCRed similaire à ce que fait SimpleOCR.

L'open-source serait le meilleur, suivi du freeware, puis du trial / demo / crippleware loin derrière.

Capture d'écran de SimpleOCR montrant une interface graphique pour corriger les erreurs

Hugh Allen
la source
doublon possible du logiciel OCR gratuit
Sathyajith Bhat
2
@Sathya: mes exigences spécifiques le différencient de cette question.
Hugh Allen
Pas vraiment gratuit, mais avez-vous étudié Microsoft Office? Il est livré avec OCR. (Recherchez la fonctionnalité «Microsoft Office Document Imaging» dans la configuration.)
Vivelin
@horsedrowner: Je viens de l'essayer. Sa précision est comparable à Tesseract mais elle nécessite un fichier TIFF avec un paramètre DPI approprié ou cela ne fonctionne pas, et il n'a pas d'interface pour corriger les erreurs OCR.
Hugh Allen
@ Hugh Allen: Est-ce vrai? Cela a plutôt bien fonctionné lorsque je suis tombé sur la fonction de menu contextuel dans OneNote 2007. Et j'utilisais un fichier image aléatoire copié-collé à partir d'un site Web ...
Vivelin

Réponses:

2

Avez-vous essayé gimagereader , une interface graphique pour Tesseract?

ukanth
la source
Je viens de l'essayer (sous Windows) et il ne fonctionne pas pour moi - le processus se termine immédiatement sans message d'erreur :( Quoi qu'il en soit, en regardant les captures d'écran, il ne semble pas vraiment mettre en évidence le mot que vous modifiez. Avez-vous essayé il?
Hugh Allen
2

OCRopus :

Le logiciel est en partie basé sur Tesseract, le meilleur moteur OCR open source disponible pour le moment. Alors que le projet devrait être publié à la fin de l'année prochaine et sera utilisé pour le projet de numérisation de livres de Google, l'équipe a quelques applications intéressantes à l'esprit:

  • une interface de service web
  • OCR PDF, appareil photo et écran
  • intégration avec les outils de recherche de bureau: Beagle, Spotlight, Google Desktop

OCRopus (tm) est un système d'analyse de documents et d'OCR à la pointe de la technologie, comprenant une analyse de disposition enfichable, une reconnaissance de caractères enfichable, une modélisation statistique du langage naturel et des capacités multilingues.

Le moteur OCRopus est basé sur deux projets de recherche: un outil de reconnaissance d'écriture manuscrite hautes performances développé au milieu des années 90 et déployé par le US Census Bureau, et de nouvelles méthodes d'analyse de mise en page hautes performances.

OCRopus est un développement sponsorisé par Google et initialement destiné aux efforts de conversion de documents à haut débit et à volume élevé. Nous nous attendons à ce qu'il soit également un excellent système OCR pour de nombreuses autres applications. texte alternatif Liens:


GOCR

GOCR est un programme OCR (Optical Character Recognition), développé sous la licence publique GNU. Il convertit les images numérisées de texte en fichiers texte. Joerg Schulenburg a lancé le programme et dirige maintenant une équipe de développeurs. GOCR peut être utilisé avec différents frontaux, ce qui facilite le portage vers différents systèmes d'exploitation et architectures. Il peut ouvrir de nombreux formats d'image différents et sa qualité s'est améliorée au quotidien. texte alternatif texte alternatif

Liens:


Krazy_Kaos
la source
Est-ce que l'un d'eux a une interface graphique décente pour les accompagner?
Hugh Allen
1
Edited répond à votre question .... mais je dirais: "Non, ils ne le font pas", mais j'entends abiword prend en charge OCRopus ( arstechnica.com/open-source/news/2007/08/… )
Krazy_Kaos
1
+1 pour l'ajout de captures d'écran pour répondre et aussi pour la mini-revue des deux programmes proposés ...
Kurt Pfeifle
0

Il existe également TOPOCR (alias SnapReader), contenant le correcteur orthographique de post-traitement pour 11 langues:

SnapReader peut être utilisé pour créer vos propres notes consultables à partir de presque n'importe quelle image de document. Ou vous pouvez l'utiliser comme un outil de création et créer votre propre contenu modifiable à l'aide de votre scanner ou appareil photo et enregistrer les résultats au format HTML ou PDF. SnapReader peut également transformer du texte en audio de très haute qualité à l'aide d'Audrey. Ainsi, non seulement vous pouvez utiliser votre scanner ou votre appareil photo pour capturer des documents, mais vous pouvez également utiliser votre lecteur de musique portable ou votre smartphone pour les "lire".

image

harrymc
la source