Mon PDF contient 600 pages avec des images de texte. Il a 2 couches .
Couche 1: Image couleur d'arrière-plan
Couche 2: image texte
Je souhaite supprimer tous les calques d'image d'arrière-plan du fichier PDF total, comme indiqué dans l'image.
Pourriez-vous me suggérer un logiciel / outil?
Réponses:
Aperçu
Ce que vous recherchez, ce sont des outils tels que Scan Tailor et unpaper qui sont capables de Thresholding , Despeckling et Noise Removal . Les deux outils fonctionnent avec des images plutôt qu'avec des fichiers PDF, mais vous pouvez facilement convertir entre les différents formats utilisés par ces applications et PDF en utilisant les outils décrits à la fin de cette réponse.
ScanTailor
Vous pouvez trouver un tutoriel vidéo ici . Une documentation plus complète est disponible sur le wiki officiel . Vous serez probablement le plus intéressé par la page sur le mode de sortie noir et blanc et les paramètres de filtre .
Unpaper
Je n'ai pas encore travaillé avec
unpaper
moi-même. D'après ce que je comprends, il a beaucoup plus de fonctionnalités que ScanTailor mais il est également beaucoup plus difficile à maîtriser.Il n'y a pas d'interface graphique et vous devrez vous fier aux commutateurs de ligne de commande pour faire votre travail. D'un autre côté, cela signifie que les conversions avec
unpaper
peuvent facilement être automatisées à l'aide de scripts.Vous pouvez trouver des exemples de script concernant la conversion d'une numérisation en noir et blanc et la suppression de l'arrière-plan ici .
Quelques outils utiles lorsque vous travaillez avec unpaper et ScanTailer
Je n'ai pas assez de temps pour rédiger un tutoriel complet sur ScanTailor et unpaper¹ mais voici quelques conseils concernant la conversion entre
.pdf
et les formats d'image pris en charge par ces outils:Vous pouvez utiliser
pdfimages
pour convertir des documents PDF en.ppm
fichiers d' une seule page , qui peuvent être lus parunpaper
.Exemple d'utilisation:
ScanTailor ne prend pas les
.ppm
fichiers en entrée. Vous devrez d'abord les convertir dans un autre format comme le sans perte.png
.mogrify
hors de laimagemagick
suite d'outils peut le faire pour vous.Exemple d'utilisation:
Le format de sortie de ScanTailor et unpaper sont des
.tiff
fichiers d' une seule page . Afin de les reconvertir,.pdf
je suggérerais d'utilisertiffcp
ettiff2pdf
.Exemple d'utilisation:
Installation
Cette commande installera tous les outils mentionnés ci-dessus:
¹: Pour tous ceux qui lisent ceci, n'hésitez pas à compiler une réponse plus complète basée sur ScanTailor et / ou unpaper.
la source
Je viens de trouver une solution très simple:
installer
gscan2pdf
.Ouvrez
gscan2pdf
et importez le PDF.outils-> seuil. La valeur par défaut de 80% a bien fonctionné pour moi.
enregistrez le PDF dans un autre emplacement.
la source
peut-être que Master PDF editor peut vous aider, bien que je n'ai pas trouvé de toute façon à le faire automatiquement sur les 600 pages.
la source