Existe-t-il une sorte de convertisseur PDF vers texte?

21

J'ai besoin de fichiers PDF en texte pour pouvoir les rechercher en masse à partir de la ligne de commande. Existe-t-il un convertisseur pour Ubuntu, OBSD ou une distribution similaire?

Peut-être un article connexe, OCR avec ubuntu ici .

otto
la source
3
Question similaire chez Super User
Gilles 'SO- arrête d'être méchant'
S'il s'agit d'un "vrai" PDF (fabriqué à partir de texte, etc.), pdftotext est votre meilleur choix. S'il s'agit d'une image, votre meilleur pari est un truc OCR.
vonbrand
1
J'utilise toujours pdftotext= pdfcat.
isomorphismes

Réponses:

22

Tu as beaucoup d'options!

pdftotextde poppler a déjà été mentionné.

Il existe un programme Haskell appelépdf2line qui fonctionne bien.

calibre du » ebook-convertprogramme (ou le calibre lui - même) ligne de commande est une autre option; il peut convertir des fichiers PDF en texte brut ou en d'autres formats d'ebook (RTF, ePub), à mon avis, il génère de meilleurs résultats que pdftotext, bien qu'il soit considérablement plus lent.

ebook-convert file.pdf file.txt

AbiWord peut convertir entre tous les formats qu'il connaît à partir de la ligne de commande, et au moins optionnellement a un plugin d'importation PDF:

abiword --to=txt file.pdf

Encore une autre option est podofotextextractde la bibliothèque d'outils PDF podofo. Je n'ai pas vraiment essayé ça.

Si vous combinez les deux outils Ghostscript, pdf2pset ps2ascii, vous avez encore une autre option.

Je peux en fait penser à quelques autres méthodes, mais je vais en rester là pour l'instant. ;)

frabjous
la source
ebook-convert de calibre ... avez-vous vu ce que cela fait aux ligatures? bleargh. disons-le ainsi: ce n'est pas un programme très e cace. pdftotext est beaucoup plus fidèle. je n'ai jamais découvert aucune erreur dans sa sortie.
ixtmixilix
1
Vous pouvez utiliser moins pour afficher les fichiers pdf sous forme de texte. Il appelle un préprocesseur, c'est-à-dire lesspipe, pour appeler pdftotext ou des outils similaires.
Daniel Näslund
pdftotextdonne des résultats plus précis que ebook-convertet il est très rapide. ebook-convertest lent.
Amit Patel
pdftotextavec -layoutoption roches! calibrenécessite plus de 600 Mo pour l'installation! C'est fou)
Stalinko
9

Vous pouvez convertir des PDF en texte sur la ligne de commande avec pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).

Vous pouvez utiliser Recoll (Ubuntu: recoll ; OpenBSD: pas de port, mais il y en a un pour FreeBSD .) Pour rechercher dans différents types de documents texte formatés, y compris PDF. Il y a une interface graphique, et il construit automatiquement un index sous le capot. Il utilise pdftotextpour convertir des PDF en texte.

Acrobat Reader (au moins la version 9 sous Linux) a une capacité de recherche de fichiers multiples limitée (vous pouvez rechercher dans tous les fichiers d'un répertoire).

Gilles 'SO- arrête d'être méchant'
la source
-1

gPDFText convertit le contenu PDF d'un livre électronique en texte ASCII, reformaté pour les longs paragraphes, il fonctionne pour moi et possède une interface graphique.

Charles
la source
3
Bonjour et bienvenue sur le site. Nous aimons que les réponses soient un peu plus complètes ici. Par exemple, vous pouvez ajouter où gPDFTextles obtenir, comment les installer et comment les utiliser pour répondre à la question du PO.
terdon