Conversion de PDF sémantique en HTML

4

Je voudrais convertir un document PDF en une collection de pages HTML présentant un balisage «propre», générer / conserver des informations sémantiques (chapitres, sections ...), ainsi que réaliser des tâches de nettoyage (par exemple, la page ne m'intéresse pas. chiffres ou en répétant le titre du chapitre / document sur chaque page).

Existe-t-il un tel programme?

À votre santé

Rom1
la source

Réponses:

0

Calibre permet la conversion d'un fichier PDF au format HTML qui est une page HTML à fichier unique avec des données. Si vous souhaitez l'utiliser pour créer une collection de pages html, vous devez d'abord diviser le fichier PDF en fonction de votre système d'exploitation. Calibre fonctionne sur tous les principaux systèmes d'exploitation, installez le programme depuis http://calibre-ebook.com, importez le fichier PDF, puis utilisez l'option "convertir les livres" de ui et choisissez le format htmlz. Plusieurs pages de paramètres peuvent être modifiées pour obtenir votre résultat final.

Il existe également une interface en ligne de commande si vous souhaitez créer un script.

digitaladept
la source
0

J'en ai écrit un, car j'en avais besoin pour mon site Web schooletc.co.uk, qui transcrit des centaines de milliers de PDF en HTML sémantique sans faire de gros dégâts.

Voici mon référentiel Github https://github.com/fmalina/transcript

Il s’agit d’un processus en deux étapes. Tout d'abord, les fichiers PDF sont traités à l'aide de PDFtoHTML (Ex) qui produit un balisage HTML de présentation, puis les documents à l'aide de transcript.py, produisant du code HTML sémantique comprenant des en-têtes, des paragraphes, des listes et des tableaux de données.

F. Malina
la source