Aujourd'hui, j'ai reçu un PDF de notre fournisseur et il contenait plusieurs pages imprimées et numérisées avec des signatures, etc. Je l'ai ouvert dans Acrobat Reader DC. Mais à ma grande surprise, le texte des images manifestement numérisées a pu être sélectionné et copié sous forme de texte. Voir la capture d'écran:
Il y a évidemment une certaine OCR derrière cela car le texte copié contient des erreurs. Mais comment est-ce possible? Je ne l'ai jamais vu auparavant, comment cela peut-il être créé?
pdf
adobe-acrobat
adobe-reader
ocr
Vojtěch Dohnal
la source
la source
Réponses:
Cela (contrairement à certaines autres réponses ici) n'a probablement rien à voir avec Acrobat.
La plupart (tous?!) Des scanners de documents professionnels et la plupart des scanners semi-professionnels effectuent automatiquement l'OCR lorsque vous choisissez "Enregistrer au format PDF" et que la case "consultable" est cochée dans les paramètres. Les modèles moins chers "grand public" feront l'OCR sur le PC connecté, les scanners réseau typiques le font en interne.
Le mot "consultable" signifie rien de plus et rien de moins que le scanner effectuera l'OCR, puis générera une page avec les images bitmap numérisées à l'intérieur, et les superposera avec des caractères invisibles de l'OCR, chacun placé sur le caractère respectif sur l'image bitmap.
De cette façon, vous pouvez rechercher et également sélectionner, copier et coller le "bitmap" comme par magie. Ce n'est pas du tout magique, cependant. En réalité, vous copiez simplement du texte invisible.
Le scanner peut également faire un peu de magie supplémentaire, comme la composition de la grande image à partir de nombreuses petites tuiles qui sont également réutilisées. Cela se traduit par une taille de document beaucoup plus petite que ce qui serait réellement possible, mais peut également conduire à de drôles de surprises (pas si drôles si elles vous arrivent!) Comme le Xerox modifie l'histoire de vos factures , ironiquement même quand aucun OCR n'est fait, selon sur le firmware.
la source
Fondamentalement, un programme effectue l'OCR sur le fichier d'entrée, puis il place une couche de texte invisible sur l'image. Alternativement, il peut également placer une couche visible de texte sous l'image, donnant le même effet.
Lorsque vous sélectionnez quelque chose, l'image n'a pas d'importance car le calque de texte est sélectionné.
Il y a plusieurs façons. Étant donné qu'Acrobat a déjà été suggéré, j'ajouterai quelques options gratuites (et heureusement, vous n'êtes pas obligé d'avoir Windows pour les utiliser).
PDF-XChange Viewer
Il s'agit d'un programme Windows natif de Tracker Software . La version freeware fonctionne correctement sous Wine si vous utilisez l'édition 32 bits dans un préfixe 32 bits, vous pouvez donc l'utiliser sur Windows, macOS et Linux. Dans les deux derniers cas, vous auriez besoin respectivement de PlayOnMac ou PlayOnLinux.
Voici une image de cette réponse que j'ai laissée sur Ask Ubuntu:
OCRmyPDF
Il s'agit d' un programme multiplateforme écrit en Python , basé sur Ghostscript, Tesseract et Unpaper. De la documentation:
Il peut être facilement installé sur les dérivés Debian et Ubuntu:
Ou sur macOS:
Sous Windows, vous devez utiliser l'image Docker. Voir les documents officiels pour plus de détails.
L'utilisation est très simple et je vous suggère d'utiliser les
-d
paramètres optionnels (redressement) et-c
(nettoyage) pour de meilleurs résultats. Il redressera chaque page et nettoiera les petits points / imperfections avant d'exécuter le processus OCR.Vous pouvez (et devez) fournir la langue
-l
.Voici un exemple tiré de ce document asymétrique écrit en italien:
La commande que j'ai utilisée était:
Outils en ligne
Il existe quelques outils en ligne qui font de même. Remarquable, PDF24 héberge une version Web gratuite d'OCRmyPDF qui peut être utilisée sans limitations.
Voir également:
la source
Cela est peut-être dû à une fonction Acrobat OCR :
la source
Depuis le site Web d'Adobe
la source