Sous Linux - Comment extraire du texte d'un texte .pdf
dans lequel le texte est vraiment du texte, pas une image numérisée? Je veux quelque chose que je peux utiliser sur la ligne de commande / dans un script, pas de manière interactive. (Je ne veux pas convertir .tif
et utiliser l'OCR - le texte est déjà disponible dans le .pdf
fichier, alors pourquoi introduire des inexactitudes de l'OCR imparfait?)
23
Réponses:
pdftotext
qui vient avec poppler essaiera d'extraire tout texte trouvé dans le PDF.la source
La réponse d'Ignacio est très bien. En fait, ce serait la première chose sur ma liste. Eh bien, cela et peut-être pour suggérer l'
pdftohtml
outil qui vient également avec poppler, combiné avec pdfreflow si vous voulez essayer de réassembler le texte en paragraphes, etc. (Bien sûr, cela vous donnera une sortie HTML, mais la conversion HTML en texte brut peut être fait de plusieurs façons.)Voici également quelques autres options.
L'
ebook-convert
outil de ligne de commande de Calibre , qui peut convertir des fichiers .PDF en texte brut (ou RTF ou un certain nombre de formats d'ebook, comme ePub, etc.)pdftxtextract
de PodofoAbiword peut être appelé à partir de la ligne de commande pour convertir entre tous les formats dans lesquels il peut entrer / exporter, et avec le plugin d'importation approprié, cela inclut les PDF:
abiword --to=txt file.pdf
(En toute honnêteté, je pense qu'AbiWord et calibre utilisent tous les deux les bibliothèques poppler, mais je ne suis pas positif.)
la source