J'ai un fichier PDF contenant les plans du bâtiment dans lequel je travaille, ici:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Les fichiers source d'origine ont été perdus et on m'a demandé d'extraire les images de la carte, de préférence sans le texte et les icônes qui ont été superposés dessus. Cela s'est avéré extrêmement difficile.
Jusqu'à présent, j'ai essayé les programmes GUI suivants:
- Adobe Reader: me permet de sélectionner du texte, mais pas les images d'arrière-plan
- FoxIt PDF Viewer: permet de sélectionner du texte, mais pas les images d'arrière-plan
- XPDF sur Ubuntu 10.10: permet de sélectionner le texte, mais pas les images d'arrière-plan
Et aussi les programmes de ligne de commande suivants:
- pdfimages: extrait très bien les icônes indiquant les salles de bain, mais pas les images d'arrière-plan
- pdftohtml: identique à pdfimages, en plus il fait un document HTML mal balisé
- pdfextract: identique à pdfimages
- convertir: images enregistrées avec succès, mais avec le texte gravé en elles
J'ai même essayé d'ouvrir le PDF manuellement dans un éditeur de texte et d'extraire les objets de flux en les collant dans un nouveau fichier et en l'enregistrant avec une extension .jpg, .png ou .bmp (chacun à son tour). Compte tenu du peu que je connais sur la structure interne des fichiers PDF, il n'est pas surprenant que cela n'ait pas fonctionné.
Alors ... est-il possible de récupérer les images de la carte à partir de cette chose sans obtenir le texte et les icônes?
la source
qpdf
pour convertir les parties binaires en ASCII autant que possible. (2) Utilisez un éditeur de texte pour rendre tout le texte invisible que je ne veux pas voir à l'écran ou sur les impressions (peut être réalisé facilement et sans endommager la table XRef en basculant le drapeau invisible ). (3) Redistillez le résultat avec Ghostscript pour réduire sa taille autant que possible. - Malheureusement, votre fichier n'est plus téléchargeable pour illustrer la procédure ...Réponses:
Vous pouvez télécharger la bibliothèque XPDF sur http://www.foolabs.com/xpdf/download.html pour Linux et Windows. Ensuite , exécutez
pdfimages -j input.pdf output
et vous devriez obteniroutput-000.jpg
,output-001.jpg
etc. De plus, consultez http://linuxcommand.org/man_pages/pdfimages1.html pour plus d' options d'utilisation.la source
Ok, après avoir dérangé avec cela pendant 5 minutes, mon analyse est que le PDF est encore plus étrange que je ne le pensais à l'origine, et cela dit quelque chose.
Vous ne savez pas quel est votre budget, mais avec Acrobat Pro Extended 9, vous pouvez utiliser:
A. Outils, édition avancée, outil de retouche de texte
B. Outils, édition avancée, outil d'objets de retouche
-Sélectionnez l'objet (vous pouvez en obtenir la plupart, mais pas tous (par exemple, les icônes des ordinateurs des élèves ne peuvent pas être sélectionnées), puis supprimez
Voici à quoi ressemblait la page 1 après un nettoyage rapide: http://dl.dropbox.com/u/7434256/p1test.pdf
la source
/AA
opérateur (pour Action automatique ), ce qui en fait un fichier PDF potentiellement dangereux. Ghostscript a pu le réduire à 60 koctets sans perdre aucun de son contenu visible. (Les métadonnées contenues dans le fichier s'étalent sur 17 objets différents. Les métadonnées suggèrent également qu'il y a 17 révisions / modifications différentes de ce fichier depuis sa création le 2011-01-18.)Prenez le PDF créé par Craig H et optimisez-le un peu en l'exécutant via Ghostscript. Sous Windows, la ligne de commande est:
Sous Linux / Unix / Mac OS X, procédez comme suit:
Cela réduira la taille du fichier de 3 000 Ko à environ 60 Ko sans perdre de contenu. Ensuite, l'importer dans Inkscape (ou InDesign, Illustrator, ...) devrait être beaucoup plus rapide ....
la source
... vous pouvez essayer Photoshop. Il lit les fichiers PDF, et il est «possible» qu'il provienne de PS et ait peut-être encore les couches ... mais c'est un plan très long.
la source
Dans un environnement Linux, j'ai utilisé pdfmod pour extraire toutes les images en une seule fois. Voir https://wiki.gnome.org/Apps/PdfMod ou, pour les utilisateurs d'Ubuntu, https://apps.ubuntu.com/cat/applications/pdfmod/
Pour le télécharger et l'installer dans Ubuntu, il suffit de taper
sudo apt-get install pdfmod
.pdfmod
le tableau de bord ou le terminal de ligne de commande)export n images
, avec n le nombre approprié). Vous pouvez également accéder à cette commande en survolant avec votre souris sur la sélection et en activant le menu local (clic droit pour les droitiers).J'espère que cela t'aides.
la source
Ouvrez le document sur votre écran, zoomez sur l'image pour la rendre aussi grande que possible mais tout est toujours visible. Appuyez sur alt + prnt scrn (ou l'équivalent sur votre système d'exploitation) et il devrait prendre une capture d'écran du programme. Maintenant, ouvrez la peinture ou votre éditeur d'image préféré (Photoshop, Gimp, etc.) collez l'image et recadrez tout ce que vous ne voulez pas.
la source