J'ai un document PDF numérisé auquel je veux ajouter un calque de texte masqué, afin de pouvoir indexer le document. J'ai utilisé le périphérique de sortie tiff ghostscript noir et blanc (tiffg4) pour extraire les pages sous forme d'images tiff, et voici un exemple de ce à quoi elles ressemblent:
Le traitement de cette image avec tesseract, ne donne pas de bons résultats.
Changer le DPI de sortie de ghostscript (600, 300, 150, 96) montre que l'image à 96 DPI donne le meilleur résultat de tesseract mais ce n'est toujours pas satisfaisant.
Maintenant, je pensais demander des conseils sur le filtre qui améliorerait cette image pour le traitement OCR.
Je pourrais utiliser imagemagick ou numpy / scipy / ndimage
la source