Comment extraire du texte d'un pdf en script sous Linux?

23

Sous Linux - Comment extraire du texte d'un texte .pdfdans lequel le texte est vraiment du texte, pas une image numérisée? Je veux quelque chose que je peux utiliser sur la ligne de commande / dans un script, pas de manière interactive. (Je ne veux pas convertir .tifet utiliser l'OCR - le texte est déjà disponible dans le .pdffichier, alors pourquoi introduire des inexactitudes de l'OCR imparfait?)

linux pdf script export RobM
la source

question similaire à askubuntu

Trevor Boyd Smith

25

pdftotext qui vient avec poppler essaiera d'extraire tout texte trouvé dans le PDF.

Ignacio Vazquez-Abrams
la source

1

Merci pour votre réponse rapide, Ignacio! Je vérifiais déjà pdftotext qui vient avec xpdf (de foolabs.com) - votre réponse m'a incité à jeter un autre coup d'œil, et je l'ai fait fonctionner. Poppler semble avoir évolué à partir de xpdf, je vais donc y jeter un œil. Merci encore!

RobM

9

La réponse d'Ignacio est très bien. En fait, ce serait la première chose sur ma liste. Eh bien, cela et peut-être pour suggérer l' pdftohtmloutil qui vient également avec poppler, combiné avec pdfreflow si vous voulez essayer de réassembler le texte en paragraphes, etc. (Bien sûr, cela vous donnera une sortie HTML, mais la conversion HTML en texte brut peut être fait de plusieurs façons.)

Voici également quelques autres options.

L' ebook-convertoutil de ligne de commande de Calibre , qui peut convertir des fichiers .PDF en texte brut (ou RTF ou un certain nombre de formats d'ebook, comme ePub, etc.)

pdftxtextractde Podofo

Abiword peut être appelé à partir de la ligne de commande pour convertir entre tous les formats dans lesquels il peut entrer / exporter, et avec le plugin d'importation approprié, cela inclut les PDF:

abiword --to=txt file.pdf

(En toute honnêteté, je pense qu'AbiWord et calibre utilisent tous les deux les bibliothèques poppler, mais je ne suis pas positif.)

frabjous
la source

Merci frabjous! Dans ce cas, je suis juste en train d'extraire le texte afin de pouvoir rechercher des chaînes spécifiques (noms de fournisseurs, numéros de compte) et des modèles (numéros de facture et dates) - donc pas besoin de le reformater ou de le réafficher. J'apprécie la corroboration et les alternatives - et je suis sûr que d'autres aussi! - Rob

RobM

Comment extraire du texte d'un pdf en script sous Linux?

Réponses: