J'ai un document PDF assez volumineux (~ 100 Mo) avec beaucoup d'images (comme illustrations et images d'arrière-plan), et j'aimerais en avoir une copie sans images mais je ne sais pas comment fais ça.
Je ne parle pas de le convertir en texte uniquement, je voudrais garder les paragraphes / tableaux / multi-colonnes tels quels.
Je suis à l'aise avec la ligne de commande et j'ai plusieurs ordinateurs avec différentes distributions que je peux utiliser.
command-line
pdf
Ornux
la source
la source
Réponses:
Il n'est pas dans les référentiels mais vous pouvez trouver un téléchargement ( pré-compilé ou source ) sur leur site web .
Manuel :
la source
Les dernières versions de Ghostscript peuvent également le faire. Ajoutez simplement le paramètre
-dFILTERIMAGE
à votre commande.Il existe même deux nouveaux paramètres supplémentaires qui peuvent être ajoutés afin de supprimer de manière sélective les types de contenu "vecteur" et "texte" :
-dFILTERIMAGE
: produit une sortie où toutes les images raster sont supprimées.-dFILTERTEXT
: produit une sortie où tous les éléments de texte sont supprimés.-dFILTERVECTOR
: produit une sortie où tous les dessins vectoriels sont supprimés.Deux de ces options peuvent être combinées. (Si vous combinez les 3, toutes les pages seront vides ...)
Exemples
Voici la capture d'écran d'un exemple de page PDF qui contient les 3 types de contenu mentionnés ci-dessus:
Capture d'écran de la page PDF d'origine contenant des éléments "image", "vecteur" et "texte".
L'exécution des 6 commandes suivantes créera les 6 variantes possibles du contenu restant:
L'image suivante illustre les résultats:
Rangée du haut, de gauche: tout "texte" supprimé; toutes les "images" supprimées; tous les "vecteurs" ont été supprimés. Rangée du bas, de gauche: seul "texte" conservé; seules les "images" sont conservées; seuls les "vecteurs" sont conservés.
la source
Alors que la réponse @Rinzwind est la bonne chose , je voudrais juste commenter la solution "à mi-chemin". Vous pouvez normalement réduire considérablement la taille des images en utilisant ghostscript avec
... c'est parfois très pratique pour la relecture. La page de manuel pour la rédaction de PDF est ici .
la source
/screen
(entre autres) la résolution des images bitmap à 72 dpi. Alors oui, si vous avez des images à plus petit DPI, cela peut augmenter la taille du fichier. C'est la raison pour laquelle j'ai utilisé le mot "normalement" (dans le sens de "pas toujours, mais assez souvent"). N'hésitez pas à voter contre ce que vous voulez.for s in screen default ; do gs -o /dev/null -sDEVICE=pdfwrite -dPDFSETTINGS=/${s} -c "currentpagedevice {exch ==only ( ) print === } forall" | sort | tee ghostscript---pdfwrite-PDFSETTINGS-${s}--pagedevice-settings.txt; done
. Il produira deux fichiers texte que vous pourrez comparer en utilisantsdiff -sbB $[file1}.txt ${file2}.txt
. Maintenant, vous connaissez exactement et complètement tous les différents paramètres introduits par-dPDFSETTINGS=/screen
!/screen
qu'en/default
--- 72 dpi contre 150 dpi, optimisé, ignorer l'aperçu EPS ... mais bon, ce n'est pas un gros problème. Les gens vont tester et choisir la meilleure solution./screen
ont donné des résultats très mauvais. Peut-être que ma mémoire échoue, ou je l'ai mélangé/epub
. La commande que je vous ai donnée venait de mémoire parce que j'étais sûr qu'elle montrerait ce que je voulais dire. Maintenant, je l'ai relancé à nouveau, je ne vois plus ce que j'attendais: des tests plus étendus que j'ai exécutés il y a quelques années. Ensuite, de nombreuses polices (CID? / CFF?) Ont obtenu des tailles de ballonnement pixellisées des PDF résultants. Je doisVous pouvez utiliser l'éditeur de pdf maître, supprimer ces images et enregistrer en tant que nouveau fichier pdf. Vous pouvez le télécharger à partir du centre de logiciels Ubuntu.
la source