Comment identifier le format des images dans un pdf?

6

J'ai reçu un certain nombre de fichiers pdf contenant des images. Les images originales ont été perdues, je dois donc les extraire. J'ai Adobe Acrobat Pro, je les ai donc extraits avec Advanced > Document Processing > Export All Images(il y a quatre options: jpeg, png, tiff, jpeg2000). Mais, j'aimerais les extraire dans le format d'origine, et ce n'est apparemment pas du format jpeg: j'ai aussi testé pdfimages.exe à partir du format xpdf comme indiqué ici , ce qui donnait des fichiers .ppm, pas de jpeg.

J'ai donc essayé d'identifier ImageMagick. Voici ce qu'il m'a donné:

identify images-000.ppm
images-000.ppm PPM 870x1181 870x1181+0+0 8-bit sRGB 3.082MB 0.000u 0:00.000

Est-ce que cela indique qu'il s'agissait d'un fichier .bmp intégré? Comment dire? Je m'attendrais en fait à ce qu'une fonction dans Acrobat identifie le format des images, mais je ne l'ai pas trouvée.

Alors, quel est le meilleur moyen d'identifier le format d'image des images dans un pdf?

(Je préfère l'extraction via Acrobat en raison de la fonctionnalité de traitement par lots).

Arjan
la source

Réponses:

4

Autant que je sache, les XObject d'image incorporés dans des fichiers PDF ne stockent aucune information sur le format de l'image d'origine. Tout au plus s'il s'agit d'un fichier JPEG intégré, il peut être extrait tel quel, mais dans tous les autres cas, vous obtenez une image PxM que vous devez convertir.

Karan
la source
2

L'image est au format de fichier pixmap portable. (Voir Wikipedia: format Netpbm pour plus de détails).

Le peut utiliser les outils netbmp pour les convertir en un bmp plus moderne.
La syntaxe pour cela est: ppmtobmp images-000.ppm > images-000.bmp.

http://netpbm.sourceforge.net/ est la page d'accueil de netpbm.

Y a-t-il plusieurs images dans un document? Ou pouvons-nous simplement rechercher la ligne dans identify images-000.ppmle fichier PDF , couper le fichier à partir de cet emplacement et l’alimenter en ppmtobmp? Cela ne devrait pas être difficile à automatiser.

Hennes
la source
Je suppose que cela a du sens, puisque pdfimages.exe les a sauvegardés en tant que pixmap. Ce que je veux réellement, c’est de trouver le format d’image des images incorporées. Oui, il y a plusieurs images dans le pdf.
Arjan
1
Le format d'image actuel dans le PDF est pixmap (de JFIF). Le format d'origine n'est pas conservé. Si vous voulez le format original, vous devrez récupérer les fichiers originaux, ou sauvegarder les images (en utilisant pdfimages), puis les convertir et les renommer.
Hennes
Je cherchais donc des informations qui ne sont tout simplement pas dans le pdf. Bon à savoir.
Arjan