Comment copier du texte d'un PDF sans perdre la mise en forme?

41

Lorsque je copie du texte d'un fichier PDF dans un éditeur de texte, il finit par être endommagé de différentes manières. Le formatage, comme gras et italique, est perdu; Les sauts de ligne souples dans un paragraphe de texte sont convertis en sauts de ligne durs; les tirets pour casser un mot sur deux lignes sont conservés même s'ils ne devraient pas l'être; et les guillemets simples et doubles sont remplacés par? des signes.

Idéalement, j'aimerais pouvoir copier le texte d'un fichier PDF et convertir le formatage en codes HTML, les "guillemets intelligents" convertis en "et" et les sauts de ligne correctement. Y a-t-il un moyen de le faire?

Colen
la source
2
Word 2013 peut ouvrir des PDF. Pas parfait. Mais faisable
pratnala
Peut être lié: superuser.com/a/455278/13787
Steven R. Loomis

Réponses:

54

Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée et sont conçus uniquement comme un format de sortie, pas un format de saisie. Un PDF est en gros une carte contenant l’emplacement exact des caractères (lettres individuelles ou ponctuation, etc.) ou des images. Dans la plupart des cas , un fichier PDF ne stocke même pas d'informations sur la fin d'un mot et le début d'un autre.

(Quelques fichiers PDF récents stockent des informations sur ces éléments, mais il s’agit d’une nouvelle technologie et vous auriez de la chance de trouver de tels fichiers. Même si vous l’aviez fait, votre lecteur de PDF ne l’aurait peut-être pas su.)

Quoi qu'il en soit, il appartient à votre logiciel d'implémenter une sorte d '"intelligence artificielle" pour extraire simplement de l'emplacement des caractères individuels ce qui est un mot, ce qui est un paragraphe, etc. Différents logiciels le feront mieux que d’autres, et cela dépendra également de la façon dont le PDF a été créé. Dans tous les cas, vous ne devez jamais vous attendre à des résultats parfaits. Avoir le fichier PDF en sortie n'est pas la même chose que d'avoir le document source. Bien mieux d'essayer d'obtenir cela si vous le pouvez.

La solution standard à votre type de problème consiste à utiliser Adobe Acrobat Professional (le cher, pas le lecteur gratuit) pour convertir le PDF en HTML. Même cela ne va pas donner des résultats parfaits.

Il existe un logiciel gratuit qui peut être utilisé pour extraire du texte à partir de PDF avec une partie de la mise en forme intacte, mais encore une fois, n'espérez pas de résultats parfaits. Voir, par exemple, calibre (pouvant convertir au format RTF), pdftohtml / pdfreflow ou le traitement de texte AbiWord (avec tous les plug-ins d'importation / exportation activés). Il existe également un plugin d'importation PDF pour OpenOffice.

Mais s'il vous plaît ne vous attendez pas à la perfection avec aucun de ces résultats. Vous allez à contre-courant ici. PDF n'est tout simplement pas conçu comme un format d'entrée éditable.

frabjous
la source
2
un retour d'expérience 5 ans plus tard: pas de grande amélioration: je devais le convertir en HTML (avec acrobat x) puis insérer chaque ligne dans un tableau MSword. (Enregistrer pour mot ou excel ou txt vient de tout gâcher, copier en partant de chrome ne fonctionne pas du tout non plus). J'attends toujours un logiciel (très) intelligent.
JinSnow
Faites un clic droit sur le tableau en choisissant "Copier avec mise en forme", aussi, avec les limites mentionnées ci-dessus
JinSnow
1
Parce que c'est la réponse acceptée, je vous suggère de mentionner également l'option (la plus récente) que pratnala a écrite dans son commentaire - ouvrir le fichier PDF directement à partir de Word 2013. Sur certains fichiers PDF, j'ai essayé de donner de meilleurs résultats que tous les logiciels ci-dessus.
BornToCode
8

Une autre option consiste à télécharger et à utiliser le visualiseur de PDF gratuit, Foxit (c'est bien). Ensuite, vous pouvez "Enregistrer sous" et choisissez .txt pour le convertir en fichier texte. Cela préservera toute la mise en forme. Je ne sais pas si vous pouvez faire la même chose dans Adobe car j'ai arrêté de l'utiliser il y a un moment lorsque j'ai converti au format Foxit.

chris
la source
"Save as ... Text" a fonctionné pour moi avec plusieurs lecteurs PDF gratuits.
Jeff
J'utilise Foxit, et juste essayé, je ne dirais pas qu'il conserve la mise en forme. Et tout ce que je voulais, c’était des fins de ligne décentes et chaque paragraphe sous forme de paragraphe.
pgr
En utilisant txt, vous perdrez tout le formatage: polices, gras, italique, couleurs et, bien sûr, des options plus avancées
skan
Foxit Reader a bien fonctionné pour moi
Michael Tranchida,
5

Il existe un très bon outil en ligne appelé Sej-da . Il traite de la manipulation avancée des PDF. Il n'y a pas de logiciel à télécharger. Comme il s’agit d’un nouvel outil en ligne, il est encore en version bêta. Il vous permet d'extraire du texte d'un fichier PDF, ainsi que de fournir une multitude d'autres fonctionnalités PDF.

http://www.sejda.com/

Une brève revue vidéo des fonctions de la Sejda a été réalisée le 14 novembre 2012 par la Révision 3, elle est disponible ici:

http://revision3.com/tzdaily/sejda-online-pdf

Simon
la source
1
Vous pouvez toujours télécharger l'outil en ligne de commande: sejda.org/download (je ne pense pas que cela permette d' extraire du texte avec le formatage?)
Arjan
J'ai déjà recommandé Sejda ci-dessus Arjan
Simon
1
Hein? Je voulais juste dire: vous dites que c'est un outil en ligne, mais on peut aussi télécharger la même chose. En outre, approfondissez la question: je ne pense pas que cela préservera la mise en forme, comme cela a été demandé?
Arjan
Je suis bien conscient que la préservation du format a été demandée, mais à moins d’essayer, vous ne le saurez jamais.
Simon
Comme c'est un outil gratuit avec une multitude de fonctionnalités et qu'il n'est même pas sorti de la version bêta, il n'y a rien à perdre, mais essayez. Avec le temps, ses fonctionnalités seront probablement étendues, mais pour le moment, je ne peux vraiment pas me plaindre.
Simon
5

Ouvrez votre fichier PDF avec un navigateur (Google Chrome et Firefox sont testés), puis copiez votre texte là-bas.

Harsini
la source
Malheureusement, cela n'a pas fonctionné pour moi dans Firefox.
Reb
proche. FF a au moins gardé la taille des polices. Chrome a lamentablement échoué, pas même les sauts de ligne.
nd34567s32e
À compter d'octobre 2019, ouvrir un fichier PDF dans Chrome et le copier / coller dans un éditeur de texte préserve au moins la fin de ligne (mais, malheureusement, pas d'espace blanc au début des lignes).
DocOc
4

Vous pouvez utiliser Adobe Acrobat Pro pour cela.

Pour les tableaux: Acrobat 9/10 comportait une fonction de sélection de tableaux. Avec Acrobat X, vous pouvez simplement cliquer sur Enregistrer sous> Feuille de calcul> Excel. Il concatène même des pages en un seul tableur. Fonctionnalité impressionnante.

Pour le texte: Une fonctionnalité similaire existe pour l'exportation vers MS Word. Enregistrer sous> Word> Word Doc.

Sources:

utilisateur156787
la source
0

Foxit basculera entre l'affichage du fichier d'origine sous forme de PDF normal ou de texte en appuyant sur Ctrl + 6 (avec un peu de bidouillage avec le niveau de zoom du mode texte, il n'y a pas beaucoup de va-et-vient entre la lecture et la copie)

Stoatly
la source
0

J'ai trouvé cela très utile ( Supprimer les sauts de ligne ):

Voici une astuce utile pour résoudre rapidement ce problème sans avoir à supprimer manuellement tous les sauts de ligne. En gros, tout ce qu'il fait est de remplacer automatiquement tous les sauts de ligne non désirés par un seul espace, de sorte que tout le texte est regroupé dans un seul paragraphe:

1- Copiez le texte que vous voulez du PDF.

2- coller dans un nouveau document Word.

3- cliquez sur “éditer” puis “remplacer”

4- assurez-vous que vous êtes dans le champ "trouver quoi"

5- cliquez sur "plus" puis "spécial"

6- sélectionnez “marque de paragraphe” (en haut de la liste)

7- cliquer dans le champ “remplacer par”

8- appuyez une fois sur la barre d'espace

9- cliquez sur “remplacer tout”

10- Cliquez sur “ok” puis fermez la case “rechercher et remplacer”.

lucarne
la source
-1

Vous pouvez copier à partir d'Adobe Reader dans MS Excel et formater (tableau) comme vous le souhaitez, puis copier et coller à partir d'Excel. Cette solution fonctionne très bien. Vous n'avez pas besoin d'acheter une copie professionnelle coûteuse d'Adobe.

Murali Sastry
la source
La question traite du texte. Pensez-vous que ce serait une bonne solution générale pour le texte, y compris la conversion du formatage en codes HTML?
fixer1234
-1

J'essayais de sauvegarder le texte et le format d'un pdf organisé dans un tableau. Dans Acrobat Professional, je me suis rendu compte qu'il existe une option "Enregistrer sous" qui permet d'enregistrer en tant que document Excel. Cela a bien fonctionné pour mes besoins. J'ai également remarqué qu'il existe une option de document Enregistrer sous Word. Je n'ai pas essayé cependant.

Douglas Thompson
la source
2
Cela duplique la réponse de l'utilisateur156787.
fix1234