Comment convertir un fichier pdf en fichier odt?

32

Je souhaite convertir un .pdffichier en .odtfichier afin de pouvoir le convertir davantage en .docfichier. Existe-t-il un logiciel / script capable de le faire? J'ai essayé de copier le contenu du .pdffichier et de le coller dans liberoffice writer, le formatage n'est pas préservé.

Le document étant confidentiel, je préférerais ne pas utiliser de service en ligne pour la conversion.

Toute aide est grandement appréciée.

Ankit
la source
Connexes (mais pas une copie!): Comment convertir un fichier en pdf?
Eliah Kagan
1
Pour les questions spécifiques à LIBREOFFICE / OpenOffice, je vous recommande d’ adresser à ask.libreoffice.org
Bucic le

Réponses:

15

L'absence d'un convertisseur gratuit de PDF à ODT me gênait également. Je n'avais même pas besoin de quelque chose de compliqué. Juste un outil qui génère des fichiers ODT que je peux ensuite annoter dans LibreOffice (par exemple, pour remplir des formulaires).

Je sais comment procéder manuellement en convertissant le document PDF en fichiers graphiques, puis en les important dans LibreOffice, mais cela devient fastidieux.

J'ai donc finalement écrit un petit script shell rapide qui effectue automatiquement toutes les étapes requises. Vous pouvez le trouver à https://github.com/gutschke/pdf2odt

Il peut prendre un nombre illimité de fichiers PDF et d'images en entrée et génère un fichier ODT pouvant être ouvert et modifié dans LibreOffice. Les images apparaissent en fond de page, vous pouvez donc les écrire librement. Chaque image est associée à son propre style de page. N'oubliez pas cela lors de l'insertion de sauts de page et ajustez le style de page si nécessaire.

J'ai testé le script sous Linux et Mac. Étant donné qu'il ne nécessite qu'une poignée d'outils raisonnablement standard, il devrait être assez portable.

Gutschke
la source
Ce script permet de créer des captures d'écran de chaque page et de les représenter au format cible, Merci pour le script Gutschke
Oliver
J'avais utilisé il y pdf2ooa quelques années, mais il semble maintenant produire des fichiers corrompus pour LibreOffice. Ce script fait cela et plus encore - merci!
eacousineau
3
Le script pdf2odt, malheureusement, est converti en un format d’image utilisé comme arrière-plan ODT. Ne vous attendez pas à pouvoir "éditer" le texte original.
Richard Elkins
13

Vous pouvez jeter un oeil sur PDF Utilities(poppler-utils via Synaptic ou apt-get) qui inclut pdftotext :

Poppler est une bibliothèque de rendu PDF basée sur le visualiseur PDF Xpdf.

Ce paquet contient des utilitaires de ligne de commande (basés sur Poppler) permettant d’obtenir des informations sur les documents PDF, de les convertir en d’autres formats ou de les manipuler:
* pdfdetach - répertorie ou extrait des fichiers incorporés (pièces jointes)
* pdffonts - analyseur de polices
* pdfimages - extracteur d'image
* pdfinfo - informations sur le document
* pdfseparate - outil d'extraction de page
* pdftocairo - Convertisseur PDF en PNG / JPEG / PDF / PS / EPS / SVG avec Cairo
* pdftohtml - Convertisseur PDF en HTML
* pdftoppm - PDF en PPM / PNG / JPEG convertisseur d'image
* pdftops - Convertisseur PDF en PostScript (PS)
* pdftotext - extraction de texte
* pdfunite - outil de fusion de documents

Bien entendu, le succès dépendra de la manière dont le fichier pdf a été généré. Si vous obtenez ce que vous voulez en tant que fichier texte, vous pouvez alors l'enregistrer en tant que fichier .odt.

Edit: J'ai oublié de fournir la source de la citation. C'est à partir de l'onglet Description dans Synaptic pourPDF Utilities (based on Poppler).


la source
3
De cette liste, pdftohtmldoit être la meilleure solution pour la tâche, car HTML peut effectuer le formatage. Ensuite, HTML pourrait être converti en ODT ou DOC.
imz - Ivan Zakharyaschev
10

LibreOffice est capable d'importer des .pdffichiers. Ouvrez-le simplement dans une version actuelle de LibreOffice pour obtenir de meilleurs résultats. Cependant, le document sera ouvert en tant que dessin et vous ne pourrez le convertir que dans l'un des formats d'image pris en charge, et non en tant que document Writer.

Naturellement, tout le formatage n'est pas préservé, mais au moins certains.

cintreuse
la source
1
Je l'ai essayé récemment, et c'est horrible, cela n'enregistre même pas un peu de formatage. De plus, cela rend le texte illisible.
Hi-Angel
3

Si le paquet poppler-utils est installé, le script Nautilus ci-dessous (à placer dans le dossier ~ / .gnome2 / nautilus-scripts en tant que fichier exécutable) vous aidera à convertir le fichier PDF en HTML (l'option "-i" peut être supprimée pour être incluse). images), qui peuvent ensuite être ouverts avec LibreOffice Writer et enregistrés au format ODT bien que le succès de la conversion de formatage dépende beaucoup de la manière dont le fichier PDF est créé.

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym

Sadi
la source
Merci pour ce script utile. Juste une petite remarque (de man pdftohtml): -noframes : generate no frames. Not supported in complex output mode.Donc, cela -noframesn'aura aucun effet avec -cset.
Glutanimate
2
Merci, j'ai supprimé cette option redondante de mon script maintenant. Un script bash basé sur zenity pour fournir un gui pour toutes ces options serait très bien, semble-t-il ;-)
Sadi
#MHC, il semble que cette information est fausse; si nous n'incluons pas -frames, nous obtenons des fichiers HTML séparés pour les pages PDF; alors je l'ai inséré à nouveau dans mon script.
Sadi
C'est étrange. Doit être une erreur dans la documentation alors. Je vais changer ma copie du script en conséquence. Merci pour l'information!
Glutanimate
3

Essayez Calibre. Il convertit en HTML, puis dans d'autres formats. Il a fait un très bon travail sur un fichier volumineux (183 pages) que j'aurais sinon dû imprimer.

Dans mon cas, je l'ai converti en epub, mais pour le plaisir, je l'ai converti en un fichier .docx qui s'est avéré très efficace.

Christopher
la source