Comment convertir un PDF en format eBook

8

Existe-t-il un moyen de convertir un document PDF en format eBook tel que epub, azw ou mobi? Je recherche une application à conversion rapide. Je viens d'essayer le calibre. Après 10 minutes, même pas 2% de la conversion ont été atteints. Veuillez donc pas de calibre. CLI est préférable.

ManuelSchneid3r
la source

Réponses:

6

Vous devriez essayer pdftotext(sous Ubuntu dans le paquet poppler-utils). Il s'agit d'un convertisseur de ligne de commande. Il suppose que le PDF contient du texte et ne se compose pas uniquement d'images.

Si le fichier PDF est composé d'images (sans informations OCR), vous devez opter pour une solution OCR, qui est beaucoup plus lente.

J'ai également utilisé avec succès la méthode OCR sur du texte PDF qui a été brouillé (en positionnant les caractères individuels sur une page de manière non linéaire). Ensuite, vous utilisez par exemple pdftoppmpour obtenir des images individuelles des pages et OCR celles-ci.

Anthon
la source
6

J'utilise généralement Calibre pour convertir à partir des différents formats (epub, mobi et pdf). Il est assez simple de le convertir, voici une capture d'écran, il y en a d' autres et un didacticiel vidéo .

capture d'écran

   SS de calibre

slm
la source
3
Quelle partie de «s'il vous plaît pas de calibre» n'est pas claire?
mlp
5
Lorsque vous répondez à des questions sur n'importe quel site SE, vous entretenez à la fois l'OP et toute personne qui trouvera ce fil de questions / réponses à l'avenir. Cette réponse vise à couvrir toutes les bases de ces individus. Calibre pourrait également être la meilleure option, peut-être que l'OP avait une version buggy OU qu'elle était mal configurée. Je l'ai utilisé des dizaines de fois et il fait un excellent travail de conversion.
slm
Je ne suis pas en mesure de convertir le fichier pfd en epub dans une mise en page fixe. Pourriez-vous s'il vous plaît me dire quelles sont les étapes à suivre pour convertir un pdf en epub dans une mise en page fixe.
mohan rathour
1

J'ai dû le faire pour un fichier PDF une fois, et c'était le résultat (en utilisant pdftohtml de poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Alimentez le zip à Calibre et convertissez-le en EPUB. Filtrez toutes les propriétés CSS (telles que les couleurs, les polices).

Chaque fichier PDF est différent - il n'y a pas de solution définitive. Ce qui précède a fonctionné pour un cas spécifique - vous devez affaiblir pdftohtml / pdftotext, puis modifier la sortie pour l'adapter à vos besoins.

Si cela échoue et que vous devez recourir à l'OCR, j'ai eu de la chance avec cunéiforme. Mais essayez aussi tesseract, ocrad, gocr. Cependant, tous ceux-ci nécessitent un travail manuel pour un bon résultat.

frostschutz
la source