Existe-t-il un module python pour convertir des fichiers PDF en texte? J'ai essayé un morceau de code trouvé dans Activestate qui utilise pypdf mais le texte généré n'avait pas d'espace entre et n'était d'aucune utilité.
385
Existe-t-il un module python pour convertir des fichiers PDF en texte? J'ai essayé un morceau de code trouvé dans Activestate qui utilise pypdf mais le texte généré n'avait pas d'espace entre et n'était d'aucune utilité.
Réponses:
Essayez PDFMiner . Il peut extraire le texte des fichiers PDF au format HTML, SGML ou "PDF balisé".
Le format PDF balisé semble être le plus propre, et supprimer les balises XML ne laisse que le texte nu.
Une version Python 3 est disponible sous:
la source
Le package PDFMiner a changé depuis la publication de codeape .
MODIFIER (encore):
PDFMiner a été mis à jour à nouveau dans la version
20100213
Vous pouvez vérifier la version que vous avez installée avec les éléments suivants:
Voici la version mise à jour (avec des commentaires sur ce que j'ai changé / ajouté):
Modifier (encore une fois):
Voici une mise à jour pour la dernière version en pypi ,
20100619p1
. En bref , j'ai remplacéLTTextItem
avecLTChar
et passé une instance de LAParams au constructeur de CsvConverter.MODIFIER (encore une fois):
Mise à jour pour la version
20110515
(merci à Oeufcoque Penteano!):la source
LTTextItem
àLTChar
. unixuser.org/~euske/python/pdfminer/index.html#changes20110515
par votre commentaire.Étant donné qu'aucune de ces solutions ne prend en charge la dernière version de PDFMiner, j'ai écrit une solution simple qui retournera le texte d'un pdf à l'aide de PDFMiner. Cela fonctionnera pour ceux qui obtiennent des erreurs d'importation avec
process_pdf
Voir ci-dessous le code qui fonctionne pour Python 3:
la source
python3
, outre les parenthèses évidentes après laprint
commande, il faut remplacer lafile
commande paropen
et importer àStringIO
partir du packageio
Pdftotext Un programme open source (partie de Xpdf) que vous pourriez appeler depuis python (pas ce que vous avez demandé mais qui pourrait être utile). Je l'ai utilisé sans problème. Je pense que Google l'utilise dans Google Desktop.
la source
-layout
possibilité de conserver le texte dans la même position que dans le PDF. Maintenant, si seulement je pouvais comprendre comment y diriger le contenu d'un PDF.pdftotext
semble fonctionner très bien, mais il a besoin d'un deuxième argument qui est un trait d'union, si vous voulez voir les résultats sur stdout.find . -iname "*.pdf" -exec pdftotext -enc UTF-8 -eol unix -raw {} \;
Par défaut, les fichiers générés prennent le nom d'origine avec l'.txt
extension.pyPDF fonctionne bien (en supposant que vous travaillez avec des fichiers PDF bien formés). Si tout ce que vous voulez c'est le texte (avec des espaces), vous pouvez simplement faire:
Vous pouvez également accéder facilement aux métadonnées, aux données d'image, etc.
Un commentaire dans les notes de code extractText:
Que ce soit ou non un problème dépend de ce que vous faites avec le texte (par exemple, si l'ordre n'a pas d'importance, ça va, ou si le générateur ajoute du texte au flux dans l'ordre où il sera affiché, ça va) . J'ai un code d'extraction pyPdf en utilisation quotidienne, sans aucun problème.
la source
Vous pouvez également utiliser assez facilement pdfminer comme bibliothèque. Vous avez accès au modèle de contenu du pdf et pouvez créer votre propre extraction de texte. J'ai fait cela pour convertir le contenu pdf en texte séparé par des points-virgules, en utilisant le code ci-dessous.
La fonction trie simplement les objets de contenu TextItem selon leurs coordonnées y et x, et génère des éléments avec la même coordonnée y qu'une seule ligne de texte, en séparant les objets sur la même ligne avec ';' personnages.
En utilisant cette approche, j'ai pu extraire du texte à partir d'un pdf à partir duquel aucun autre outil n'a été en mesure d'extraire du contenu adapté à une analyse plus approfondie. D'autres outils que j'ai essayés incluent pdftotext, ps2ascii et l'outil en ligne pdftextonline.com.
pdfminer est un outil précieux pour le grattage de pdf.
MISE À JOUR :
Le code ci-dessus est écrit contre une ancienne version de l'API, voir mon commentaire ci-dessous.
la source
pdfminer
, nonpdflib
). Je vous suggère de jeter un œil à la source depdf2txt.py
la source PDFminer, le code ci-dessus a été inspiré par l'ancienne version de ce fichier.slate
est un projet qui rend très simple l'utilisation de PDFMiner depuis une bibliothèque:la source
J'avais besoin de convertir un PDF spécifique en texte brut dans un module python. J'ai utilisé PDFMiner 20110515, après avoir lu leur outil pdf2txt.py , j'ai écrit ce simple extrait:
la source
C:\Python27\Scripts\pdfminer\tools\pdf2txt.py
Réutilisation du code pdf2txt.py fourni avec pdfminer; vous pouvez créer une fonction qui prendra un chemin vers le pdf; éventuellement, un type extérieur (txt | html | xml | tag) et opte comme la ligne de commande pdf2txt {'-o': '/path/to/outfile.txt' ...}. Par défaut, vous pouvez appeler:
Un fichier texte sera créé, un frère sur le système de fichiers au pdf d'origine.
la source
PDFminer m'a donné peut-être une ligne [page 1 sur 7 ...] sur chaque page d'un fichier pdf que j'ai essayé avec.
La meilleure réponse que j'ai jusqu'à présent est pdftoipe, ou le code c ++ est basé sur Xpdf.
voir ma question pour savoir à quoi ressemble la sortie de pdftoipe.
la source
De plus, il existe PDFTextStream, une bibliothèque Java commerciale qui peut également être utilisée à partir de Python.
la source
J'ai utilisé
pdftohtml
avec l'-xml
argument, lire le résultat avecsubprocess.Popen()
, qui vous donnera x coord, y coord, largeur, hauteur et police, de chaque extrait de texte dans le pdf. Je pense que c'est ce que 'evince' utilise probablement aussi parce que les mêmes messages d'erreur se répandent.Si vous devez traiter des données en colonnes, cela devient un peu plus compliqué car vous devez inventer un algorithme qui convient à votre fichier pdf. Le problème est que les programmes qui créent des fichiers PDF ne présentent pas nécessairement le texte dans un format logique. Vous pouvez essayer des algorithmes de tri simples et cela fonctionne parfois, mais il peut y avoir de petits «retardataires» et «errants», des morceaux de texte qui ne sont pas mis dans l'ordre que vous pensiez qu'ils le feraient. Il faut donc faire preuve de créativité.
Il m'a fallu environ 5 heures pour en trouver un pour les fichiers PDF sur lesquels je travaillais. Mais cela fonctionne plutôt bien maintenant. Bonne chance.
la source
J'ai trouvé cette solution aujourd'hui. Fonctionne très bien pour moi. Même le rendu des pages PDF en images PNG. http://www.swftools.org/gfx_tutorial.html
la source