Convertisseur de PDF en texte [fermé]

9

Je cherche un moyen "en un clic" de prendre N'IMPORTE QUEL PDF et de le convertir en texte brut. Idéalement sous OSX ou Linux.

Idéalement, la solution inclurait la fonctionnalité OCR, mais pas nécessairement.

La priorité absolue est d'avoir quelque chose qui peut prendre N'IMPORTE QUEL fichier SANS configuration.

le miroir
la source

Réponses:

23

Il y a xpdf qui inclut le pdftotextbinaire.

Pdftotext convertit les fichiers PDF (Portable Document Format) en texte brut.

Sous Linux, un programme d'installation est disponible. Il semble qu'il soit également inclus dans le poppler-utilspackage. Sur OS X, vous pouvez l'installer en utilisant Homebrew (installez-le d'abord), puis utilisez

brew install homebrew/x11/xpdf

qui va télécharger les fichiers sources et les compiler pour OS X. Après cela, utilisez-les simplement comme:

pdftotext your_pdf_file.pdf

qui va générer un fichier texte brut. Il existe également quelques options, consultez man pdftotextpour plus de détails.

Une alternative est poppler , dans OSX:

brew install poppler

dans Debian et ses amis

apt-get install poppler-utils
slhck
la source
à ce jour la commande estbrew install homebrew/x11/xpdf
Diego Vieira
1
@DiegoVieira Merci. La prochaine fois, n'hésitez pas à suggérer une modification!
slhck
un avantage en utilisant poppler au lieu de xpdf / pdftotext?
Gonzalo Bahamondez
brew install Caskroom/cask/pdftotext
Hugo