Comment créer un PDF avec des pages numérisées mais du texte sélectionnable?

32

Aujourd'hui, j'ai reçu un PDF de notre fournisseur et il contenait plusieurs pages imprimées et numérisées avec des signatures, etc. Je l'ai ouvert dans Acrobat Reader DC. Mais à ma grande surprise, le texte des images manifestement numérisées a pu être sélectionné et copié sous forme de texte. Voir la capture d'écran:

PDF numérisé avec texte sélectionnable

Il y a évidemment une certaine OCR derrière cela car le texte copié contient des erreurs. Mais comment est-ce possible? Je ne l'ai jamais vu auparavant, comment cela peut-il être créé?

Vojtěch Dohnal
la source
4
Des packages comme github.com/gkovacs/pdfocr permettent que cela se produise pour une image PDFS déjà existante
exussum
En quoi cela diffère-t-il des résultats que vous obtenez par Batch-OCR de nombreux PDF ?
Dmitry Grigoryev
@DmitryGrigoryev Je n'avais jamais vu ce type de PDF auparavant, alors j'ai demandé ce que c'était. Il n'y a rien dans le firmware de l'imprimante OCR ou OCRMyPDF dans les réponses, les questions et les réponses sont très différentes. Je ne vois rien en double, sauf que les deux questions concernent l'OCR et les PDF.
Vojtěch Dohnal
Eh bien, je n'ai jamais vu un PDF OCR différent de ce que vous avez publié, c'est pourquoi votre question me semble étrange.
Dmitry Grigoryev

Réponses:

53

Cela (contrairement à certaines autres réponses ici) n'a probablement rien à voir avec Acrobat.

La plupart (tous?!) Des scanners de documents professionnels et la plupart des scanners semi-professionnels effectuent automatiquement l'OCR lorsque vous choisissez "Enregistrer au format PDF" et que la case "consultable" est cochée dans les paramètres. Les modèles moins chers "grand public" feront l'OCR sur le PC connecté, les scanners réseau typiques le font en interne.

Le mot "consultable" signifie rien de plus et rien de moins que le scanner effectuera l'OCR, puis générera une page avec les images bitmap numérisées à l'intérieur, et les superposera avec des caractères invisibles de l'OCR, chacun placé sur le caractère respectif sur l'image bitmap.

De cette façon, vous pouvez rechercher et également sélectionner, copier et coller le "bitmap" comme par magie. Ce n'est pas du tout magique, cependant. En réalité, vous copiez simplement du texte invisible.

Le scanner peut également faire un peu de magie supplémentaire, comme la composition de la grande image à partir de nombreuses petites tuiles qui sont également réutilisées. Cela se traduit par une taille de document beaucoup plus petite que ce qui serait réellement possible, mais peut également conduire à de drôles de surprises (pas si drôles si elles vous arrivent!) Comme le Xerox modifie l'histoire de vos factures , ironiquement même quand aucun OCR n'est fait, selon sur le firmware.

Damon
la source
Oui, c'est probablement comme ça qu'ils l'ont créé, je doute fort qu'ils utilisent Adobe Acrobat complet.
Vojtěch Dohnal
Nous l'avons fait en plaçant tout le texte derrière l'image numérisée à l'endroit où l'OCR a indiqué où il a trouvé chaque nœud de texte.
Thorbjørn Ravn Andersen
10

Mais comment est-ce possible?

Fondamentalement, un programme effectue l'OCR sur le fichier d'entrée, puis il place une couche de texte invisible sur l'image. Alternativement, il peut également placer une couche visible de texte sous l'image, donnant le même effet.

Lorsque vous sélectionnez quelque chose, l'image n'a pas d'importance car le calque de texte est sélectionné.

comment cela peut-il être créé?

Il y a plusieurs façons. Étant donné qu'Acrobat a déjà été suggéré, j'ajouterai quelques options gratuites (et heureusement, vous n'êtes pas obligé d'avoir Windows pour les utiliser).

PDF-XChange Viewer

Il s'agit d'un programme Windows natif de Tracker Software . La version freeware fonctionne correctement sous Wine si vous utilisez l'édition 32 bits dans un préfixe 32 bits, vous pouvez donc l'utiliser sur Windows, macOS et Linux. Dans les deux derniers cas, vous auriez besoin respectivement de PlayOnMac ou PlayOnLinux.

Voici une image de cette réponse que j'ai laissée sur Ask Ubuntu:

Capture d'écran de PDF-XChange Viewer sous Wine

OCRmyPDF

Il s'agit d' un programme multiplateforme écrit en Python , basé sur Ghostscript, Tesseract et Unpaper. De la documentation:

Que fait OCRmyPDF

OCRmyPDF analyse chaque page d'un PDF pour déterminer l'espace colorimétrique et la résolution (DPI) nécessaires pour capturer toutes les informations sur cette page sans perdre de contenu. Il utilise Ghostscript pour pixelliser la page, puis effectue une reconnaissance optique de caractères sur l'image tramée pour créer une «couche» OCR. Le calque est ensuite greffé sur le PDF d'origine.

Il peut être facilement installé sur les dérivés Debian et Ubuntu:

apt-get install ocrmypdf

Ou sur macOS:

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

Sous Windows, vous devez utiliser l'image Docker. Voir les documents officiels pour plus de détails.

L'utilisation est très simple et je vous suggère d'utiliser les -dparamètres optionnels (redressement) et -c(nettoyage) pour de meilleurs résultats. Il redressera chaque page et nettoiera les petits points / imperfections avant d'exécuter le processus OCR.

Vous pouvez (et devez) fournir la langue -l.

Voici un exemple tiré de ce document asymétrique écrit en italien:

Exemple pour OCRmyPDF

La commande que j'ai utilisée était:

ocrmypdf -l ita -d -c input.pdf output.pdf

Outils en ligne

Il existe quelques outils en ligne qui font de même. Remarquable, PDF24 héberge une version Web gratuite d'OCRmyPDF qui peut être utilisée sans limitations.

Voir également:

Andrea Lazzarotto
la source
Merci pour cette réponse, j'ai essayé OCRMyPDF et cela a très bien fonctionné mais malheureusement le support linguistique dont j'ai besoin n'est pas encore mature, donc les résultats n'étaient pas encore très utilisables.
Vojtěch Dohnal
@ VojtěchDohnal dans quelle langue êtes-vous intéressé? Avez-vous installé le module linguistique approprié pour Tesseract? Voir la liste ici: macports.org/ports.php?by=name&substr=tesseract-
Andrea Lazzarotto
4

Cela est peut-être dû à une fonction Acrobat OCR :

Acrobat peut reconnaître du texte dans n'importe quel fichier PDF ou image dans des dizaines de langues. Tout ce que vous avez à faire est d'ouvrir le document ou l'image numérisé que vous souhaitez OCR, puis cliquez sur le bouton bleu Outils en haut à droite de la barre d'outils. Dans cette barre latérale, sélectionnez l'onglet Reconnaître le texte, puis cliquez sur le bouton Dans ce fichier.

...

Une fois le texte reconnu, vous pouvez désormais baliser le PDF à l'aide de tous les outils de balisage normaux - vous pouvez mettre en surbrillance, biffer du texte, etc. Vous pouvez même copier le texte avec la mise en forme détectée, bien que ce soit souvent moins précis que la reconnaissance de texte elle-même.

mec
la source
Cela fonctionne-t-il également dans Reader? D'autres documents ne fonctionnent pas de cette façon pour moi ...
Vojtěch Dohnal
Je ne crains pas, mais jetez un œil à cet article: pdf.wondershare.com/pdf-software-comparison/…
duDE
3

Depuis le site Web d'Adobe

Reconnaître le texte dans un fichier PDF numérisé

Lorsque vous numérisez des documents papier au format PDF, vous prenez vraiment des photos de ces documents. C'est génial pour les photos et autres images imprimées, mais que faire si vous avez un document de 200 pages dans lequel vous devez trouver un mot ou une phrase en particulier? Utilisez Acrobat pour reconnaître le texte dans ce fichier numérisé, ce qui rend le contenu du texte consultable et utilisable.

  1. Avec votre document numérisé ouvert dans Acrobat, ouvrez le volet Outils et développez le panneau Reconnaissance de texte. Si vous ne voyez pas «Reconnaissance de texte» dans le volet Outils, vous pouvez l'ajouter en sélectionnant le menu dans le coin supérieur droit (image ci-dessous - voir où cette petite flèche rouge pointe? Cliquez ici).
  2. Cliquez sur «Dans ce fichier» pour numériser le document que vous avez ouvert. Vous pouvez simplement accepter les paramètres par défaut et cliquer sur «OK» lorsque la zone Reconnaître le texte apparaît. Acrobat convertira l'image en texte utilisable; pour le tester, essayez simplement d'éditer un mot ou une phrase avec le panneau d'édition de contenu. N'est-ce pas génial!?
Máté Juhász
la source
Merci mais je viens d'ouvrir le PDF dans Reader DC et je n'ai rien fait de spécial avec lui, les autres documents PDF avec des pages numérisées ne fonctionnent pas de cette façon automatiquement ...
Vojtěch Dohnal
5
L'OCR a été effectuée AVANT d'avoir reçu le fichier, lorsque le texte est reconnu, il est enregistré avec le pdf.
Máté Juhász
@ VojtěchDohnal Vous avez probablement besoin d'un acrobate complet, pas seulement du lecteur
Thorbjørn Ravn Andersen