Existe-t-il une sorte de convertisseur PDF vers texte?
21
J'ai besoin de fichiers PDF en texte pour pouvoir les rechercher en masse à partir de la ligne de commande. Existe-t-il un convertisseur pour Ubuntu, OBSD ou une distribution similaire?
Peut-être un article connexe, OCR avec ubuntu ici .
S'il s'agit d'un "vrai" PDF (fabriqué à partir de texte, etc.), pdftotext est votre meilleur choix. S'il s'agit d'une image, votre meilleur pari est un truc OCR.
calibre du » ebook-convertprogramme (ou le calibre lui - même) ligne de commande est une autre option; il peut convertir des fichiers PDF en texte brut ou en d'autres formats d'ebook (RTF, ePub), à mon avis, il génère de meilleurs résultats que pdftotext, bien qu'il soit considérablement plus lent.
ebook-convert file.pdf file.txt
AbiWord peut convertir entre tous les formats qu'il connaît à partir de la ligne de commande, et au moins optionnellement a un plugin d'importation PDF:
ebook-convert de calibre ... avez-vous vu ce que cela fait aux ligatures? bleargh. disons-le ainsi: ce n'est pas un programme très e cace. pdftotext est beaucoup plus fidèle. je n'ai jamais découvert aucune erreur dans sa sortie.
ixtmixilix
1
Vous pouvez utiliser moins pour afficher les fichiers pdf sous forme de texte. Il appelle un préprocesseur, c'est-à-dire lesspipe, pour appeler pdftotext ou des outils similaires.
Daniel Näslund
pdftotextdonne des résultats plus précis que ebook-convertet il est très rapide. ebook-convertest lent.
Amit Patel
pdftotextavec -layoutoption roches! calibrenécessite plus de 600 Mo pour l'installation! C'est fou)
Stalinko
9
Vous pouvez convertir des PDF en texte sur la ligne de commande avec pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).
Vous pouvez utiliser Recoll
(Ubuntu: recoll ; OpenBSD: pas de port, mais il y en a un pour FreeBSD .) Pour rechercher dans différents types de documents texte formatés, y compris PDF. Il y a une interface graphique, et il construit automatiquement un index sous le capot. Il utilise pdftotextpour convertir des PDF en texte.
Acrobat Reader (au moins la version 9 sous Linux) a une capacité de recherche de fichiers multiples limitée (vous pouvez rechercher dans tous les fichiers d'un répertoire).
pdftotext est probablement ce que vous recherchez: http://en.wikipedia.org/wiki/Pdftotext à moins que le texte que vous souhaitez extraire soit vraiment sous une forme graphique, ce qui n'est pas si courant avec les documents pdf.
gPDFText convertit le contenu PDF d'un livre électronique en texte ASCII, reformaté pour les longs paragraphes, il fonctionne pour moi et possède une interface graphique.
Bonjour et bienvenue sur le site. Nous aimons que les réponses soient un peu plus complètes ici. Par exemple, vous pouvez ajouter où gPDFTextles obtenir, comment les installer et comment les utiliser pour répondre à la question du PO.
pdftotext
=pdfcat
.Réponses:
Tu as beaucoup d'options!
pdftotext
de poppler a déjà été mentionné.Il existe un programme Haskell appelé
pdf2line
qui fonctionne bien.calibre du »
ebook-convert
programme (ou le calibre lui - même) ligne de commande est une autre option; il peut convertir des fichiers PDF en texte brut ou en d'autres formats d'ebook (RTF, ePub), à mon avis, il génère de meilleurs résultats que pdftotext, bien qu'il soit considérablement plus lent.ebook-convert file.pdf file.txt
AbiWord peut convertir entre tous les formats qu'il connaît à partir de la ligne de commande, et au moins optionnellement a un plugin d'importation PDF:
abiword --to=txt file.pdf
Encore une autre option est
podofotextextract
de la bibliothèque d'outils PDF podofo. Je n'ai pas vraiment essayé ça.Si vous combinez les deux outils Ghostscript,
pdf2ps
etps2ascii
, vous avez encore une autre option.Je peux en fait penser à quelques autres méthodes, mais je vais en rester là pour l'instant. ;)
la source
pdftotext
donne des résultats plus précis queebook-convert
et il est très rapide.ebook-convert
est lent.pdftotext
avec-layout
option roches!calibre
nécessite plus de 600 Mo pour l'installation! C'est fou)Vous pouvez convertir des PDF en texte sur la ligne de commande avec pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utils
package).Vous pouvez utiliser Recoll (Ubuntu: recoll ; OpenBSD: pas de port, mais il y en a un pour FreeBSD .) Pour rechercher dans différents types de documents texte formatés, y compris PDF. Il y a une interface graphique, et il construit automatiquement un index sous le capot. Il utilise
pdftotext
pour convertir des PDF en texte.Acrobat Reader (au moins la version 9 sous Linux) a une capacité de recherche de fichiers multiples limitée (vous pouvez rechercher dans tous les fichiers d'un répertoire).
la source
pdftotext est probablement ce que vous recherchez: http://en.wikipedia.org/wiki/Pdftotext à moins que le texte que vous souhaitez extraire soit vraiment sous une forme graphique, ce qui n'est pas si courant avec les documents pdf.
la source
gPDFText convertit le contenu PDF d'un livre électronique en texte ASCII, reformaté pour les longs paragraphes, il fonctionne pour moi et possède une interface graphique.
la source
gPDFText
les obtenir, comment les installer et comment les utiliser pour répondre à la question du PO.