Qu'est-ce qui fait augmenter la taille du fichier PDF lors de l'enregistrement dans Aperçu?

17

Il semble que faire des modifications, des annotations, ou même simplement ouvrir et enregistrer un fichier PDF dans Aperçu entraînera une augmentation significative de la taille du fichier. J'ai remarqué que pour certains livres que j'ai numérisés, cela améliore également le temps de rendu des pages.

Quelqu'un peut-il faire la lumière sur ce qui se passe à l'origine de ces changements? Je suis intéressé par la synchronisation des annotations d'ebooks PDF entre Aperçu et l'iPad (peut-être GoodReader) mais cela peut être trop peu pratique avec de gros fichiers PDF.

Alex B
la source
2
Cela est probablement dû à la façon dont ils ont décidé de coder les PDF en aperçu. Les PDF sont désormais un format ouvert, mais cela ne signifie pas nécessairement que tout le monde les encode de la même manière. Votre pari le plus sûr est d'obtenir un éditeur Adobe PDF et de l'utiliser. Selon ces personnes, discussions.apple.com/thread/3896311?start=0&tstart=0 , cela fait une différence. Ils discutent également des raisons possibles de votre problème.
Tony

Réponses:

12

Dans son roman peu connu, PDF Karenina , Leo Tolstoy a écrit:

Les fichiers PDF encodés de manière optimale se ressemblent tous; chaque fichier PDF sous-optimisé est sous-optimisé à sa manière.

Il est difficile pour quiconque de savoir pourquoi vos fichiers PDF sont plus volumineux après que l'aperçu les a modifiés. Un fichier PDF se compose de différents types de données: images, flux de contenu, polices, surcharge de document, espaces colorimétriques, états graphiques étendus et tableau de référence croisée. Tout comme une phrase peut être concise et une autre verbeuse, mais les deux sont un anglais valide et disent la même chose, de même un fichier PDF peut avoir une manière plus verbeuse de représenter le même contenu qu'un fichier PDF plus concis. Il faudrait regarder vos fichiers PDF exacts. Il est probable qu'ils ont été créés par une variété de logiciels différents, certains concis, d'autres moins.

Il importe également quelle version de Mac OS X et Aperçu que vous utilisez, car cela détermine le logiciel qui écrit le nouveau fichier PDF lorsque vous effectuez un enregistrement sous dans Aperçu.

Je peux cependant vous dire ce qui grossit dans certains de mes fichiers PDF. Cette histoire s'applique à mon ordinateur, exécutant Mac OS X 10.5.8 et Apple Preview 4.2 (469.5).

Un fichier,, Giulio.pdfest un document de 22 pages avec du texte en tant que texte, pas des images numérisées. Il fait 461 092 octets. Je l'ai ouvert dans Aperçu, ai fait Fichier ... Enregistrer sous ... et l' ai enregistré sous un nouveau nom de fichier. Le nouveau fichier est de 724 421 octets, soit 57% de plus.

J'ai ouvert chaque fichier avec Adobe Acrobat Professional, version 8.3.1 pour Mac OS. J'ai fait avancée ... PDF Optimizer ... Espace de vérification Utilisation ... . Une petite boîte de dialogue a donné une ventilation du nombre d'octets dus à chaque catégorie d'utilisation, plus le pourcentage de la taille totale du fichier pour la catégorie.

L'original Giulio.pdf compte 390 754 octets (84,75%) consacrés aux flux de contenu et zéro octet aux images. Il est au format PDF 1.4. Le fichier enregistré par Aperçu contient 675 846 octets (93,29%) consacrés aux flux de contenu, également zéro octet d'images, et est au format PDF 1.3. L'aperçu a agrandi les flux de contenu de 285 092 octets, ce qui représente 73% de la différence de taille de fichier entre les deux.

Je me demandais si le format de fichier PDF 1.3 était intrinsèquement moins efficace pour stocker ce type de fichier. J'ai ouvert l'original Giulio.pdfdans Adobe Acrobat Professional 8 et l'ai fait Advanced ... PDF Optimizer ... Rendre compatible avec: Acrobat 3.0 et versions ultérieures et appuyé sur OK. J'ai enregistré le fichier résultant sous un nouveau nom. Le fichier résultant est au format PDF 1.3 et était de 452 356 octets, ou plus petit que l'original. Ses flux de contenu sont de 375 171 octets (82,94%), une proportion similaire, mais plus petite que les flux de contenu du fichier d'origine.

Il semble donc que nous pouvons conclure que l'application Aperçu sur Mac OS X 10.5.8 n'est pas aussi efficace que certains autres créateurs PDF pour créer des flux de contenu concis dans des fichiers PDF, et la différence est suffisante pour représenter les trois quarts de la différence de taille dans un fichier PDF sans images.

J'ai fait une expérience similaire sur form k.pdfun document d'une page numérisé à partir de papier. Le fichier d'origine est de 303 730 octets, dont 298 197 octets (98,18%) sont des images. Une copie de ce fichier créé par Aperçu à l'aide de Enregistrer sous ... fait 300 601 octets, soit 1% de moins. Cette différence de taille de fichier est plus que prise en compte par une catégorie d'octets "document overhead" plus petite dans le fichier créé par Aperçu.

Ainsi, il semble que nous puissions également conclure que l'aperçu ne fait pas toujours augmenter la taille d'un fichier PDF. Cela dépend de la nature du fichier PDF d'origine et de sa concision au départ.

Jim DeLaHunt
la source
3

Je sais que c'est assez tard, mais j'ai trouvé quelque chose qui semble fonctionner, du moins s'il est utilisé au départ: j'ai essayé d'utiliser le filtre à quartz pour «réduire la taille du fichier». Il semble fonctionner mais n'est pas activé par défaut. Je peux le choisir spécifiquement via le menu Enregistrer sous (maintenez l'option), mais je crains qu'il ne soit par défaut la méthode habituelle sur les sauvegardes automatiques.

Voici ce qui se passe pour moi et comment je suis arrivé à cette page en premier lieu: Le PDF commence comme un livre de 91 Mo 900 pages. J'ajoute une seule annotation et l'enregistre et le fichier monte à 2,29 Go. Pour couronner le tout, il faut une éternité pour enregistrer, d'autant plus que j'enregistre sur un disque externe. Dieu merci, le lecteur est USB 3!

Est-il possible d'extraire ces annotations? Je peux annoter et surligner sur Goodreader et PDF Expert sur mon iPad. Si Aperçu ne peut pas me permettre de le faire sur mon ordinateur, existe-t-il une autre application qui le fera? Pourquoi ne peut-il pas simplement enregistrer les annotations / hautes lumières mais ne pas essayer de recompresser toutes les images comme si je réenregistrais un JPEG à chaque fois. Merci pour l'aide!

Scott
la source
Cela fonctionne: 400 Kio> 1,3 Mio> 540 Kio. Mon PDF d'origine pesait moins de 400 Ko et est devenu un monstrueux 1,3 Mo après avoir ajouté quelques points saillants / soulignements. J'ai fait comme suggéré et le fichier est descendu à 540 Ko: Enregistrer sous ... avec un filtre à quartz réglé pour réduire la taille du fichier . Je peux toujours éditer les faits saillants précédents (ce qui devient impossible avec Exporter en PDF ... ) et la taille est plus conforme à ce que j'obtiens en le modifiant sur un autre appareil.
Daniel
1

Le problème reste grave. Dans la version 7.0 (Mac Os 10.9.5.), J'ai généré un fichier PDF à l'aide d'Acrobat 9.5.5. qui a abouti à un fichier de 5 Mo. Dans l'aperçu, j'ai ajouté exactement 12 caractères (en utilisant les outils d'édition). Après avoir enregistré ce fichier, il a atteint 14 Mo.

Vous pouvez le corriger en l'ouvrant et en l'enregistrant à nouveau dans Acrobat (vous devrez peut-être utiliser l'option "réduire la taille du fichier").

Peter Uetz
la source
2
Cela n'explique pas pourquoi cela se produit, c'est ce que la question pose.
Ian C.
0

Impossible d'ajouter des indices à la solution. Je peux ajouter un scénario similaire (OS X 10.11.3): un pdf numérisé pesant environ ~ 800 Ko est ouvert en aperçu, deux ou trois pages numérisées vides sont supprimées, le pdf résultant de deux pages plus court est ~ 2,2 Mo. "Option-Enregistrer sous" et en sélectionnant le filtre à quartz "réduire la taille du fichier", le fichier est compressé à ... 1,9 Mo.

Le fichier d'origine a été généré par un copieur Xerox WC 7830, qui d'après mon expérience (par rapport aux imprimantes / copieurs multifonctions précédentes que nous avions) produit des PDF numérisés assez bien optimisés.

Impossible de voir visuellement la différence dans le fichier; Je suppose que les images de la page sont recompressées en 24 bpp, alors que le fichier d'origine est clairement en utilisant beaucoup moins de couleurs, probablement 6 bits (c'est un document imprimé et signé, texte uniquement, le scanner fait un bon travail de garder le fond blanc blanc pur). Malheureusement, l'aperçu n'est pas assez intelligent pour détecter et maintenir cela, et semble avoir besoin de recompresser le fichier entier bien qu'aucune modification ne soit apportée dans les pages restantes (encore une fois, seules quelques pages ont été supprimées.

Pimenta
la source