Lorsque je copie du texte d'un fichier PDF dans un éditeur de texte, il finit par être endommagé de différentes manières. Le formatage, comme gras et italique, est perdu; Les sauts de ligne souples dans un paragraphe de texte sont convertis en sauts de ligne durs; les tirets pour casser un mot sur deux lignes sont conservés même s'ils ne devraient pas l'être; et les guillemets simples et doubles sont remplacés par? des signes.
Idéalement, j'aimerais pouvoir copier le texte d'un fichier PDF et convertir le formatage en codes HTML, les "guillemets intelligents" convertis en "et" et les sauts de ligne correctement. Y a-t-il un moyen de le faire?
Réponses:
Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée et sont conçus uniquement comme un format de sortie, pas un format de saisie. Un PDF est en gros une carte contenant l’emplacement exact des caractères (lettres individuelles ou ponctuation, etc.) ou des images. Dans la plupart des cas , un fichier PDF ne stocke même pas d'informations sur la fin d'un mot et le début d'un autre.
(Quelques fichiers PDF récents stockent des informations sur ces éléments, mais il s’agit d’une nouvelle technologie et vous auriez de la chance de trouver de tels fichiers. Même si vous l’aviez fait, votre lecteur de PDF ne l’aurait peut-être pas su.)
Quoi qu'il en soit, il appartient à votre logiciel d'implémenter une sorte d '"intelligence artificielle" pour extraire simplement de l'emplacement des caractères individuels ce qui est un mot, ce qui est un paragraphe, etc. Différents logiciels le feront mieux que d’autres, et cela dépendra également de la façon dont le PDF a été créé. Dans tous les cas, vous ne devez jamais vous attendre à des résultats parfaits. Avoir le fichier PDF en sortie n'est pas la même chose que d'avoir le document source. Bien mieux d'essayer d'obtenir cela si vous le pouvez.
La solution standard à votre type de problème consiste à utiliser Adobe Acrobat Professional (le cher, pas le lecteur gratuit) pour convertir le PDF en HTML. Même cela ne va pas donner des résultats parfaits.
Il existe un logiciel gratuit qui peut être utilisé pour extraire du texte à partir de PDF avec une partie de la mise en forme intacte, mais encore une fois, n'espérez pas de résultats parfaits. Voir, par exemple, calibre (pouvant convertir au format RTF), pdftohtml / pdfreflow ou le traitement de texte AbiWord (avec tous les plug-ins d'importation / exportation activés). Il existe également un plugin d'importation PDF pour OpenOffice.
Mais s'il vous plaît ne vous attendez pas à la perfection avec aucun de ces résultats. Vous allez à contre-courant ici. PDF n'est tout simplement pas conçu comme un format d'entrée éditable.
la source
Une autre option consiste à télécharger et à utiliser le visualiseur de PDF gratuit, Foxit (c'est bien). Ensuite, vous pouvez "Enregistrer sous" et choisissez .txt pour le convertir en fichier texte. Cela préservera toute la mise en forme. Je ne sais pas si vous pouvez faire la même chose dans Adobe car j'ai arrêté de l'utiliser il y a un moment lorsque j'ai converti au format Foxit.
la source
Il existe un très bon outil en ligne appelé Sej-da . Il traite de la manipulation avancée des PDF. Il n'y a pas de logiciel à télécharger. Comme il s’agit d’un nouvel outil en ligne, il est encore en version bêta. Il vous permet d'extraire du texte d'un fichier PDF, ainsi que de fournir une multitude d'autres fonctionnalités PDF.
http://www.sejda.com/
Une brève revue vidéo des fonctions de la Sejda a été réalisée le 14 novembre 2012 par la Révision 3, elle est disponible ici:
http://revision3.com/tzdaily/sejda-online-pdf
la source
Ouvrez votre fichier PDF avec un navigateur (Google Chrome et Firefox sont testés), puis copiez votre texte là-bas.
la source
Vous pouvez utiliser Adobe Acrobat Pro pour cela.
Pour les tableaux: Acrobat 9/10 comportait une fonction de sélection de tableaux. Avec Acrobat X, vous pouvez simplement cliquer sur Enregistrer sous> Feuille de calcul> Excel. Il concatène même des pages en un seul tableur. Fonctionnalité impressionnante.
Pour le texte: Une fonctionnalité similaire existe pour l'exportation vers MS Word. Enregistrer sous> Word> Word Doc.
Sources:
la source
Foxit basculera entre l'affichage du fichier d'origine sous forme de PDF normal ou de texte en appuyant sur Ctrl + 6 (avec un peu de bidouillage avec le niveau de zoom du mode texte, il n'y a pas beaucoup de va-et-vient entre la lecture et la copie)
la source
J'ai trouvé cela très utile ( Supprimer les sauts de ligne ):
Voici une astuce utile pour résoudre rapidement ce problème sans avoir à supprimer manuellement tous les sauts de ligne. En gros, tout ce qu'il fait est de remplacer automatiquement tous les sauts de ligne non désirés par un seul espace, de sorte que tout le texte est regroupé dans un seul paragraphe:
1- Copiez le texte que vous voulez du PDF.
2- coller dans un nouveau document Word.
3- cliquez sur “éditer” puis “remplacer”
4- assurez-vous que vous êtes dans le champ "trouver quoi"
5- cliquez sur "plus" puis "spécial"
6- sélectionnez “marque de paragraphe” (en haut de la liste)
7- cliquer dans le champ “remplacer par”
8- appuyez une fois sur la barre d'espace
9- cliquez sur “remplacer tout”
10- Cliquez sur “ok” puis fermez la case “rechercher et remplacer”.
la source
Vous pouvez copier à partir d'Adobe Reader dans MS Excel et formater (tableau) comme vous le souhaitez, puis copier et coller à partir d'Excel. Cette solution fonctionne très bien. Vous n'avez pas besoin d'acheter une copie professionnelle coûteuse d'Adobe.
la source
J'essayais de sauvegarder le texte et le format d'un pdf organisé dans un tableau. Dans Acrobat Professional, je me suis rendu compte qu'il existe une option "Enregistrer sous" qui permet d'enregistrer en tant que document Excel. Cela a bien fonctionné pour mes besoins. J'ai également remarqué qu'il existe une option de document Enregistrer sous Word. Je n'ai pas essayé cependant.
la source