Vous devriez essayer pdftotext
(sous Ubuntu dans le paquet poppler-utils
). Il s'agit d'un convertisseur de ligne de commande. Il suppose que le PDF contient du texte et ne se compose pas uniquement d'images.
Si le fichier PDF est composé d'images (sans informations OCR), vous devez opter pour une solution OCR, qui est beaucoup plus lente.
J'ai également utilisé avec succès la méthode OCR sur du texte PDF qui a été brouillé (en positionnant les caractères individuels sur une page de manière non linéaire). Ensuite, vous utilisez par exemple pdftoppm
pour obtenir des images individuelles des pages et OCR celles-ci.
J'ai dû le faire pour un fichier PDF une fois, et c'était le résultat (en utilisant pdftohtml de poppler):
Alimentez le zip à Calibre et convertissez-le en EPUB. Filtrez toutes les propriétés CSS (telles que les couleurs, les polices).
Chaque fichier PDF est différent - il n'y a pas de solution définitive. Ce qui précède a fonctionné pour un cas spécifique - vous devez affaiblir pdftohtml / pdftotext, puis modifier la sortie pour l'adapter à vos besoins.
Si cela échoue et que vous devez recourir à l'OCR, j'ai eu de la chance avec cunéiforme. Mais essayez aussi tesseract, ocrad, gocr. Cependant, tous ceux-ci nécessitent un travail manuel pour un bon résultat.
la source