Comment enregistrer un fichier image PDF en tant qu'image?

33

J'ai un PDF contenant une image numérisée d'un document. Je souhaite enregistrer le contenu de ce PDF sous forme d'image afin de pouvoir ensuite l'exécuter via un programme OCR qui accepte uniquement les fichiers de type .jpg, .png et .gif.

Comment enregistrer / convertir ce PDF dans l'un de ces formats d'image?

EDIT: Une façon que j'ai trouvé pour ce faire est de cliquer sur chaque page. Copier dans le presse-papier. Collez sur Paint.net, puis enregistrez. Cependant, cela est lourd car il semble que vous ne pouvez sélectionner qu'une seule page à la fois dans Acrobat Reader.

Gars
la source

Réponses:

20

Veuillez prêter une attention particulière à la réponse de pooryorick , dans laquelle il souligne comment la réponse de sleske est en réalité une bien meilleure réponse à ce problème particulier.


Utilisez GhostScript . Cette commande fonctionne pour moi:

gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf

Il existe plusieurs pseudo-périphériques png, différenciant la profondeur de couleur: pngmono, pnggray, png16, png256, png16m et pngalpha. Choisissez celui qui vous convient le mieux.

Vous pouvez également utiliser jpeg, mais sauf si vous avez un problème d'espace disque, vous voulez une qualité aussi élevée que vous pouvez gérer pour votre OCR, et ce n'est pas jpeg.

GhostScript n'a plus de support pour gif, mais je ne peux pas imaginer pourquoi vous en auriez besoin, avec le support png256.

wfaulk
la source
J'adore GhostScript, et si vous voulez la commodité d'une interface graphique pour définir les options, la visualisation, etc., essayez GSview pages.cs.wisc.edu/~ghost/gsview
Dennis
La sortie sera-t-elle une immense image?
Xonatron
1
@Xonatron: Non. Une image par page. Dans %dle nom du fichier de sortie est une variable qui est remplacée par le numéro de page. (Presque certainement des nombres bruts, pas le nombre à l'intérieur du PDF.)
wfaulk
20

Installez Imagemagick . Ouvrez une fenêtre ou un terminal cmd:

convert myfile.pdf myfile.jpg

La sortie sera 1 fichier jpg pour chaque page de votre pdf, test-0.jpg, test-1.jpg, etc.

DaveParillo
la source
+1 pour ImageMagick, mais -2 pour le suggérer pour le mauvais travail. JPEG est bon pour les photos, mais c'est le pire format à utiliser lorsque vous avez des egdes nets et des contrastes élevés (comme vous l'avez généralement avec du texte / des caractères noirs sur fond blanc). De plus, ImageMagick ne fait pas le travail de conversion lui-même, il utilise Ghostscript en arrière-plan comme esclave "délégué". Donc, le faire avec Ghostscript vous donne directement plus de contrôle sur les paramètres utilisés. Et puis choisissez TIFF (pas JPEG) comme format de sortie, pour l'amour de Chris!
Kurt Pfeifle
1
Remarque sur Windows, assurez-vous d'installer Ghostscript 32 bits en premier.
Utilisateur
2
Soyez conscient des density, depthet des qualitydrapeaux qui peuvent vous aider à optimiser votre sortie. Par exemple: convert -density 300 -depth 8 -quality 85 a.pdf a.png Plus d'infos
Nick
13

Il y a aussi pdfimagesdes outils Xpdf (disponibles sur le site de XpdfReader ). Il ne convertira pas une page PDF entière en une image, il extraira plutôt des images incorporées d'un PDF.

Ceci est utile si le PDF contient du texte et des images et que vous ne souhaitez que les images. De plus, il extraira les images dans leur format d'origine, donc aucune perte de qualité n'est impliquée (contrairement aux programmes qui rendent la page entière puis la convertissent par exemple en JPEG). Selon vos besoins, cela peut être utile.


Utilisation simple:

pdfimages -j -list mydocument.pdf mydocument-images

Cela va lire le fichier d'entrée mydocument.pdf, extraire toutes les images et les écrire dans des fichiers individuels nommés mydocument-images-0000.jpg, mydocument-images-0001.jpgetc.

L'option -jpermet d'écrire des images compressées JPEG intégrées sous forme de fichiers JPEG, et non sous forme de fichiers PBM / PGM / PPM (qui sont non compressés et volumineux). Notez que les images peuvent toujours être écrites en tant que fichiers PBM / PGM / PPM, si c'est ainsi qu'elles ont été stockées dans le fichier d'entrée PDF.

sleske
la source
Pour référence, une utilisation simple est de pdfimages -j "yourinputfile.pdf" "outputimages"faire "outputimages-0000.ppm" (ou "outputimages-0000.jpg" si elles sont au bon format). Des exemples .NET peuvent être greffés d' ici ou d' ici
drzaus
Une mise en garde est qu'il pourrait ne pas être en mesure d'enregistrer le fichier en JPG, mais plutôt en PPM
drzaus
11

Vous pouvez le faire à l'aide d'Adobe Reader:

  1. Cliquez sur l'image. Il sera mis en évidence.
  2. Copiez (Ctrl-C) et collez-le dans Paint.
  3. Enregistrez sous n'importe quel type de fichier que vous aimez.
Hemant
la source
2
intéressant à savoir, Adobe Reader a un paramètre pour remplacer le dpi des images prises avec l'outil d'instantané, lorsqu'il est réglé sur 300 dpi, vous obtiendrez des instantanés prêts à imprimer (par défaut, la résolution d'écran est prise, ce qui est généralement trop faible à réutiliser dans d'autres travaux)
Stijn Sanders
3
+1 pour plus de simplicité. La plupart des lecteurs PDF vous permettent de le faire.
Decio Lira
4
Et si votre PDF contient 10000 pages d'images? Devez-vous faire cela 10000 fois?
Guy
9

À l'exception de la réponse mentionnant pdfimages, toutes les autres réponses ne mentionnent pas que leurs solutions transcodent réellement les images incorporées. C'est-à-dire que ces solutions ne se contentent pas d'extraire l'image originale, mais de la modifier, éventuellement au détriment de l'image, au cours du processus. Seul pdfimages extrait l'image d'origine. C'est le cas de Ghostscript, Imagemagick, Adobe Reader, PDFFill, PDF Xchange Viewer, OS X Preview et la plupart des autres logiciels PDF.

pooryorick
la source
Compte tenu du contexte de la question, c'est en fait un très bon point.
wfaulk
FWIW, "PDFill PDF Tools" vous permet de définir le DPI pour l'enregistrement en tant qu'image, très pratique. Ainsi, chaque page (à partir de texte, d'images, quels que soient les objets) est enregistrée, par exemple, dans un PNG haute résolution à 4961x6520.
Chris O
4

PDFill PDF Tools est probablement le moyen le plus simple de convertir vos PDF en images sous Windows. Il vous permettra d'exporter toutes les pages du PDF pour séparer les images en une seule fois. Il a également de nombreuses autres fonctionnalités disponibles gratuitement, qui ne sont disponibles dans d'autres visualiseurs PDF que si vous achetez la version commerciale ou "Pro".

Utilisez le bouton "Convertir le PDF en images" (bouton # 10) dans la capture d'écran ci-dessous.

Capture d'écran PDFill PDF Tools

Si vous avez besoin de concaténer les images en une seule image très haute afin de n'avoir à alimenter qu'un seul fichier dans votre programme OCR, vous pouvez utiliser IrfanView

Rob
la source
notez que cela installera deux outils différents sur votre système. Le principal étant PDFill Editor, c'est celui dont vous n'avez pas besoin. Allez dans le menu Démarrer pour ouvrir celui-ci. J'ai été sauvé par la capture d'écran en réalisant que quelque chose n'allait pas avant de désinstaller.
ufotds
Oui, je suppose que je n'ai pas mentionné qu'il installe également une version shareware de PDFill Editor, ainsi qu'une imprimante PDF. Tous les fichiers créés avec PDFill Editor auront un filigrane à moins que vous n'achetiez l'éditeur pour 19,99 $, mais l'utilitaire PDFill PDF Tools Free ne nécessite aucun achat. Dans la version que j'ai, vous ne pouvez pas désinstaller PDFill Editor sans désinstaller également PDFill PDF Tools Free, mais avoir PDFill Editor installé ne nuit à rien.
voler
2

Puisque vous n'avez pas inclus de balise OS, je vais inclure une réponse OSX:

Les fichiers PDF par défaut s'ouvrent dans Preview.app qui vous permet d'utiliser File -> Save-As:

  • GIF
  • ICNS
  • JPEG
  • JPEG-2000
  • BMP
  • OpenEXR
  • Photoshop
  • PNG
  • TGA
  • TIFF
Lac
la source
1

Aussi PDF XChange Viewer (Free) fera à l' exportation fichier. Fichier → Exporter → Exporter vers l'image.

Non seulement cela, mais je pense que c'est le meilleur visualiseur PDF gratuit pour Windows, et il a de belles capacités de balisage. J'ai une licence pour Adobe Acrobat et je préfère toujours cela, sauf si je fais des modifications approfondies, ce qui est rarement le cas.

wfaulk
la source
Cela semblait prometteur, jusqu'à ce que je découvre que l'option d'exportation vers l'image est désactivée pour les fichiers PDF sécurisés par mot de passe.
Mitch
1

(Non-gratuit) Acrobat Professional fait ceci:

Avancé-> Traitement des documents-> Exporter toutes les images ...

ufotds
la source
0

Si le fichier est inférieur à 5 Mo et que vous n'êtes pas inquiet au sujet de la confidentialité / confidentialité, alors il existe un service en ligne pratique à http://www.go2convert.com/ qui peut faire beaucoup de conversions graphiques (y compris pdf en jpeg)

sgmoore
la source
Je viens d'essayer et cela a donné ce message d'erreur "Désolé! Cette image n'a pas pu être convertie correctement."
Guy
-1

Si l'image dépasse la taille de votre écran, vous pouvez utiliser FastStone Capture (la fonction "Capture Scrolling Window") et enregistrer l'image au format JPEG.

texte alternatif

Gaffe
la source
C'est une façon très détournée de saisir une image. OP a déjà une meilleure solution (marquer la page dans Acrobat).
sleske