Découvrir les métadonnées d'un PDF

32

Supposons que j'ai un PDF et que je souhaite obtenir toutes les métadonnées disponibles pour ce PDF. Quel utilitaire dois-je utiliser?

Je trouve que l'information que je suis généralement le plus intéressé à connaître est la taille du papier, ce que les lecteurs PDF ne signalent généralement pas. Par exemple, la lettre au format PDF est-elle légale, A4 ou autre? Mais les autres informations disponibles peuvent également être intéressantes.

EDIT: Voici un guide pratique sur les formats de papier, grâce à @terdon.

Faheem Mitha
la source
1
Bizarre. Pourquoi quelqu'un voterait-il contre cette question? Soin d'expliquer?
Faheem Mitha

Réponses:

39

L'un des outils canoniques pour cela est pdfinfo, qui vient avec xpdf, si je me souviens bien. Exemple de sortie:

[0 1017 17:10:17] ~/temp % pdfinfo test.pdf
Creator:        TeX
Producer:       pdfTeX-1.40.14
CreationDate:   Sun May 18 09:53:06 2014
ModDate:        Sun May 18 09:53:06 2014
Tagged:         no
Form:           none
Pages:          1
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      19700 bytes
Optimized:      no
PDF version:    1.5
Ulrich Schwarz
la source
1
Dans Debian au moins, cela fait partie des poppler-utils. J'ai un fichier ici que pdfinfo rapporte comme 595,2 x 841,44 pts. Mais cela n'est pas signalé comme A4. Qu'est-ce qui décide de le marquer comme A4?
Faheem Mitha
2
Les noms sont codés en dur : la lettre est 612 ± 0,1 x 792 ± 0,1, les tailles magiques pour DIN / ISO A sont (toutes ± 1 pt): 3370,98, 2383,64, 1685,49, 1191,82, 842,74, 595,91, ..., il semble donc votre page est un tout petit peu trop étroite pour être prise pdfinfoen compte.
Ulrich Schwarz
Je vois, le bout de code if ((fabs(w - 612) < 0.1 && fabs(h - 792) < 0.1) || (fabs(w - 792) < 0.1 && fabs(h - 612) < 0.1))?
Faheem Mitha
C'est lettre, les formats A sont dans la boucle avec le sqrt(2)s.
Ulrich Schwarz
13

Exiftool est un autre utilitaire qui mérite d'être étudié . Ce n'est peut-être pas le bon outil dans votre cas spécifique car il ne fournit aucune information sur la géométrie du document, mais en général, c'est probablement l'outil le plus complet pour inspecter les métadonnées PDF.

Voici un exemple de commande qui imprimera toutes les méta-informations disponibles ( -a), triées par groupes ( -G1):

exiftool -a -G1 "$File"

La documentation officielle offre un aperçu des balises liées au PDF prises en charge:

Vous pouvez installer exiftool sur Debian / Ubuntu avec:

sudo apt-get install libimage-exiftool-perl

Si vous êtes plutôt du côté de l'interface graphique, vous pouvez essayer mon projet PDFMtEd . Il s'agit d'un ensemble d'outils qui servent d'interface graphique pour améliorer et permettre la visualisation et la modification des métadonnées PDF.

Voici quelques captures d'écran:

entrez la description de l'image ici

entrez la description de l'image ici

Glutanimate
la source