Comment supprimer l'OCR d'un PDF?

14

Je recherche sur Google depuis un certain temps, mais je ne trouve pas de réponse à ma question.

J'ai des couches d'OCR indésirables dans un document que j'ai récemment numérisé avec Adobe Acrobat. Il n'a pas été correctement OCR, et je souhaite supprimer certaines informations, mais l'OCR fait l'effacement des informations souhaitées. J'ai converti les fichiers en TIF, mais j'ai remarqué une perte de qualité (très) significative. J'ai entendu dire que l'impression dans un autre PDF conserve le texte ou réduit la qualité de l'image.

J'apprécie toute aide pour résoudre ce problème dès que possible.

Merci.

Sanoo
la source

Réponses:

6

Dans Acrobat Pro DC, la commande appropriée est «Supprimer les informations cachées», qui est disponible via les outils «Protéger» et «Réduire».

Lors de l'exécution de la commande, il recherche simplement les informations masquées mais ne modifie pas le document. Vous devez ensuite indiquer à Acrobat les informations à supprimer. Dans ce cas, sélectionnez "Texte masqué" dans le volet Résultats, puis cliquez sur le bouton Supprimer et enregistrez le document modifié.

user1125483
la source
J'ai utilisé le "supprimer les informations cachées", mais pour moi, pour une raison quelconque, cela supprime simplement des parties de l'image sur certaines pages. Merci pour votre réponse.
Sanoo
Ce n'est pas universellement vrai. D'une manière ou d'une autre (probablement des bogues de macOS PDFKit), mon texte ABBYY FineReader-OCRed a été corrompu, et la vérification de "Texte caché" sous Redact → Supprimer Hidden a supprimé le texte sans aucun problème; J'ai ensuite réussi à utiliser Enhance Scans → Recognize Text pour effectuer l'OCR dans Acrobat lui-même.
Nicholas Riley
Le problème pour moi est qu'après avoir supprimé le texte masqué, je ne suis toujours pas en mesure d'exécuter une OCR avec "ClearScan" (c'est-à-dire "Texte et images modifiables"). C'est étrange car le calque de texte semble avoir disparu, mais l'exécution de l'OCR génère l'erreur "Acrobat n'a pas pu effectuer la reconnaissance car: la page contient du texte pouvant être rendu."
user1125483
1

Après de nombreuses expérimentations, j'ai constaté que l'impression au format Adobe PDF à partir d'Adobe Acrobat imprime le document sans OCR et sans perte de qualité (une résolution imperceptible au premier coup d'œil est perdue).

Cependant, de nombreux sites affirment que cela ne fonctionne pas. J'ai également essayé les autres imprimantes telles que Foxit Reader et OneNote mais la qualité a été réduite. JPEG était aussi le même.

Veuillez garder à l'esprit que votre kilométrage peut varier.

Remarque: je laisse ce fil marqué comme sans réponse dans l'espoir de trouver une meilleure réponse que la mienne.

Sanoo
la source
1

(il y a un an...)

Si, comme vous le dites, les documents sont numérisés et non imprimés au format PDF à partir de Word par exemple, vous pouvez facilement les supprimer avec votre Adobe:

Sélectionnez Document, Examinez le document et vous pouvez maintenant supprimer le texte masqué (OCR).

Fran
la source
Merci pour votre réponse. Je le testerai dès que possible et je vous le ferai savoir. Merci d'avoir répondu!
Sanoo
Je pensais avoir déjà commenté cela, mais le problème est que j'ai Acrobat DC Pro, et ces menus ont été supprimés. Merci pour votre réponse quand même.
Sanoo
1

Dans Acrobat Pro: utilisez «supprimer les informations cachées» (sous «protection»). Tout sélectionner, exécuter, l'OCR est parti

jazzzz
la source
1

Dans Acrobat X, sous Protection, il y a un bouton Sanitize Document qui supprime TOUT mais ce qui peut être vu (y compris la couche de texte OCR), convertissant le document en une carte bit aplatie.

Dave
la source
1

Je l'ai résolu en exportant au format JPEG, puis à partir du format JPEG «combiner des fichiers en acrobate». Il s'agit d'un document qui était à l'origine un mot doc et qui avait été converti en PDF. L'OCR a disparu.

rando cal
la source
0

J'ai construit un outil pour faire ce rédacteur PDF gratuit . Si vous téléchargez l'image et cliquez simplement sur expurger, cela aplatira votre pdf et supprimera l'OCR. Si vous le souhaitez, vous pouvez également dessiner des marques de rédaction sur le document.

lévinologie
la source