“Extraire du texte d'un PDF Python” Réponses codées

Extraire du texte d'un PDF Python

# pip3 install pdfplumber
import pdfplumber

# a single page
with pdfplumber.open(r'test.pdf') as pdf:
    first_page = pdf.pages[-0]
    print(first_page.extract_text())

# for every page
# with pdfplumber.open(r'test.pdf') as pdf:
#     for pages in pdf.pages:
#         print(pages.extract_text())
the hacker man

Extraire du texte de PDF Python

# using PyMuPDF
import sys, fitz
fname = sys.argv[1]  # get document filename
doc = fitz.open(fname)  # open document
out = open(fname + ".txt", "wb")  # open text output
for page in doc:  # iterate the document pages
    text = page.get_text().encode("utf8")  # get plain text (is in UTF-8)
    out.write(text)  # write text of page
    out.write(bytes((12,)))  # write page delimiter (form feed 0x0C)
out.close()
XeN0N

Réponses similaires à “Extraire du texte d'un PDF Python”

Questions similaires à “Extraire du texte d'un PDF Python”

Plus de réponses similaires à “Extraire du texte d'un PDF Python” dans Python

Parcourir les réponses de code populaires par langue

Parcourir d'autres langages de code