J'ai besoin de comparer un grand nombre de fichiers PDF pour son contenu optique. Étant donné que les fichiers PDF ont été créés sur différentes plates-formes et avec différentes versions du logiciel, il existe des différences structurelles. Par exemple:
- le découpage du texte peut être différent
- l'ordre d'écriture peut être différent
- la position peut être différente de quelques pixels
Il devrait comparer le contenu comme un peuple humain et non la structure interne. Je veux tester les régressions entre les différentes versions du générateur PDF que nous avons utilisé.
Réponses:
Parce qu'il n'y a pas d'outil disponible, nous en avons écrit un. Vous pouvez télécharger le comparateur de contenu PDF i-net et l'utiliser. J'espère que cela aidera d'autres avec le même problème. Si vous rencontrez des problèmes ou si vous avez des commentaires à nous faire, vous pouvez contacter notre support.
la source
Il existe en fait un outil diffpdf.
http://www.qtrac.eu/diffpdf.html
Sa faiblesse est qu'il ne réagit pas bien lorsque les ajouts font que le nouveau texte se déplace partiellement vers une nouvelle page. Par exemple, si l'ancienne page 4 doit être comparée à la fin de la page 5 et au début de la page 6, vous devrez déplacer les paramètres pour comparer les deux tranches séparément.
la source
J'ai utilisé un script maison qui
Logiciel utilisé:
Avantages:
Les inconvénients:
Je cherchais un outil qui ferait la même chose au niveau PDF / PostScript.
Voici comment notre script appelle les utilitaires (notez qu'ImageMagick utilise GhostScript dans les coulisses pour effectuer la conversion PDF-> PNG):
la source
for i in $(seq -w 0 05); do /cygdrive/c/Progra~1/ImageMagick-6.6.9-Q8/composite.exe 1-$i.png 2-$i.png result-$i.png; done
pdfdiff
répertoire et imprime en outre les numéros des pages qui diffèrent entre les deux PDF.Je ne semble pas pouvoir voir cela ici, alors le voici: via superutilisateur: Comment comparer les différences entre deux fichiers PDF? (réponse # 229891, par @slestak) , il y a
https://github.com/vslavik/diff-pdf
(les étapes de construction pour Ubuntu Natty se trouvent dans get-diff-pdf.sh )
Pour autant que je puisse voir, il superpose essentiellement le texte / les graphiques de chaque page dans le (s) pdf, vous permettant de voir facilement s'il y a eu des changements ...
À votre santé!
la source
Nous avons également utilisé pdftotext (voir la réponse de Sklivvz) pour générer des versions ASCII de PDF et wdiff pour les comparer.
Utilisez le
-layout
commutateur de pdftotext pour améliorer la lisibilité et avoir une idée des changements dans la mise en page.Pour obtenir une belle sortie colorée de wdiff, utilisez ce script wrapper:
la source
Je pense que votre meilleure approche serait de convertir le PDF en images à une résolution décente et de comparer une image.
Pour générer des images à partir de PDF, vous pouvez utiliser Adobe PDF Library ou la solution suggérée à Meilleur moyen de convertir des fichiers pdf en fichiers tiff .
Pour comparer les fichiers TIFF générés, j'ai trouvé GNU tiffcmp (pour Windows une partie de GnuWin32 tiff ) et tiffinfo a fait du bon travail. Utilisez tiffcmp -l et comptez le nombre de lignes de sortie pour trouver les différences. Si vous êtes satisfait d'avoir une petite quantité de changement de contenu (par exemple des différences d'anti-aliasing), utilisez tiffinfo pour compter le nombre total de pixels et vous pouvez alors générer une valeur de différence en pourcentage.
Par ailleurs, pour quiconque effectue une simple comparaison PDF où la structure n'a pas changé, il est possible d'utiliser la ligne de commande diff et d'ignorer certains modèles, par exemple avec GNU diff 2.7:
Cela a toujours le problème qu'il ne détecte pas toujours les changements dans les noms de polices générés.
la source
Notre produit, PDF Comparator - http://www.premediasystems.com/pdfc.html "- le fera avec élégance et efficacité. Ce n'est pas non plus gratuit et c'est une application uniquement pour Mac OS X.
la source
ImageMagick
, voir quelques-unes de mes autres réponses: un - deux - trois .En fonction de vos besoins, une solution de conversion en texte serait la plus simple et la plus directe. Je pensais que l'idée du bitmap était plutôt cool.
la source
le logiciel blubeam pdf le fera pour vous
la source
Vous pouvez comparer par lots des fichiers pdf avec Tarkware Pdf Comparer. Mais ce n'est pas gratuit et nécessite Adobe Acrobat.
la source