De nombreux documents PDF contiennent une table des matières hiérarchique. Je ne fais pas référence à la ToC visible sur une page - ce que je veux dire, ce sont les métadonnées utilisées pour générer les liens de la barre latérale lors de la visualisation d'un PDF avec une application telle que Aperçu. Comment puis-je l'extraire? Je ne cherche pas d'application graphique, car je vais extraire cette information de nombreux documents avec un script.
1
Réponses:
Le paquet python pdfminer est capable d'extraire cette information. Utilisez le script dumppdf.py fourni avec le package.
Produit le XML de la table des matières.
REMARQUE : Crédit @krowe pour avoir lié le la source de cette réponse dans les commentaires.
la source