J'essaie de copier et coller du texte à partir d'un fichier PDF.
Cependant, chaque fois que je colle le texte d'origine, c'est un énorme gâchis de caractères tronqués. Le texte ressemble à ceci (ce n'est qu'un petit extrait):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Je l'ai essayé dans les lecteurs PDF Adobe et Foxit. J'ai fait un «Enregistrer sous texte» dans Adobe Reader et le fichier texte résultant est le même texte tronqué.
Avez-vous des idées sur la façon de sortir ce texte sans brouillage? (À part la saisie manuelle ... il y a beaucoup de texte à extraire.)
Réponses:
Le moyen le plus simple de contourner ce problème consiste à ouvrir le fichier dans une version récente de Google Chrome avec un plug-in de lecture PDF intégré . Ensuite, vous pouvez utiliser la fonction de recherche de Chrome pour trouver du texte et le copier-coller fonctionne correctement.
Je voudrais voter pour le commentaire de pipitas sur la réponse de Shiki, mais je n'ai pas les crédits :( Le problème peut être un encodage de police personnalisé, pas un cryptage . Dans Acrobat, cliquez sur Fichier -> Propriétés, puis sur l'onglet Polices pour voir l'encodage et l'onglet Sécurité pour voir s'il est chiffré.
la source
J'ai découvert ce problème avec les fichiers PDF que j'ai créés et je pense avoir trouvé la source du problème: utiliser l'aperçu de Mac OS X pour réduire la taille du fichier PDF.
J'avais créé des filtres Quartz à l'aide de l'utilitaire Colorsync pour compresser les images au format PDF afin de réduire la taille globale des fichiers PDF contenant des images. Tels que décrits ici: http://www.macosxhints.com/article.php?story=20031106133852693
J'ai constaté que je pouvais facilement copier et coller du texte à partir du fichier PDF d'origine (non compressé), mais après avoir exécuté ce PDF via un filtre de réduction de la taille du fichier que j'ai créé, le PDF compressé résultant ne copie pas coller clairement (se présente comme les chaînes que vous avez publiées).
Cependant, en exécutant le même PDF d'origine via la fonction Document> Réduire la taille du fichier d'Adobe Acrobat Pro, le PDF compressé résultant peut copier et coller du texte avec succès.
Donc, cela n'est pas totalement utile dans votre cas, en supposant que votre fichier PDF a été reçu d'ailleurs et que vous ne pouvez pas accéder à la version d'origine, si elle a été effectivement compressée d'une manière ou d'une autre. Mais cela pourrait être l'explication - que le fichier a été altéré d'une manière ou d'une autre afin de réduire la taille du fichier.
Cela peut être utile pour les créateurs de contenu rencontrant des problèmes similaires de copie et de collage de texte à partir de PDF - soyez prudent en utilisant des filtres Quartz OS X pour réduire vos PDF!
--edit-- J'ai également remarqué ce problème lors de la combinaison de PDF avec Aperçu. Les deux fichiers PDF source peuvent être copiés et collés correctement, mais lorsque vous faites glisser une page d'un fichier vers l'autre fichier, puis enregistrez le PDF combiné, le texte du document combiné ne peut pas être copié / collé. Ce sont deux documents générés en même temps avec Filemaker Pro 11 sur Mac - je ne peux pas imaginer qu'ils auraient des encodages différents ou quelque chose de ce genre.
la source
Il existe un autre moyen très simple de contourner ce problème :)
Imprimez simplement le document en utilisant CutePdf, une imprimante Adobe 2 Pdf ou tout autre truc similaire. L'essentiel est que vous devez imprimer au format pdf.
Dans de nombreux cas, cela supprimera facilement le problème.
la source
Solution qui a fonctionné pour moi:
Les résultats n'étaient pas parfaits, mais ils m'ont permis d'atteindre 80% du chemin et de me fournir suffisamment de texte pour que je n'ai pas à tout réécrire!
la source
RESOLU: (a travaillé pour moi sur Windows 8, Acrobat XI, Office 2010)
Option 1:
BINGO!
Commentaires:
* Téléchargez uniquement si vous n'avez pas installé XPS.
Option 2:
Faites de même, mais enregistrez en tant qu'image (png, tiff, ...), vous devrez alors combiner toutes les pages en un seul fichier "PDF".
la source
Acrobat could not perform OCR on this page because: This page contains renderable text
Il existe un risque que les informations ne soient pas récupérables du tout. Les documents PDF sont essentiellement un document superposé à un autre, un texte simple, l'autre une image. Lorsque vous copiez et collez à partir du document, vous marquez le texte tout en regardant l'image, mais ce qui est copié dans votre presse-papiers est la partie correspondante de la partie texte.
Selon la façon dont le document est créé, la qualité et la disponibilité de la partie texte peuvent différer considérablement. Si vous enregistrez un document de traitement de texte au format PDF en utilisant Acrobat, Word, un pilote d'imprimante PDF ou toute autre méthode, la qualité sera généralement excellente, car le fichier texte peut être créé à partir du texte de l'original. Certains caractères spéciaux peuvent être déformés, mais le texte brut est généralement correct.
Si le document est créé à partir d'une image numérisée, cependant, la partie texte est généralement créée par traitement OCR de l'image, ce qui peut produire des résultats plutôt désolants, surtout si l'original n'est pas optimal pour le but.
Un mauvais programme utilisé pour créer le PDF, ou des paramètres incorrects, peuvent également entraîner une altération complète de la partie texte, comme cela pourrait être perceptible, certains types de cryptage exécutés sur le fichier après sa création.
En fin de compte, si la partie texte du document est vraiment mauvaise, il n'y a aucun moyen de l'améliorer. Le mieux serait de supprimer complètement la partie texte et de faire refaire le processus OCR par le programme. Je pense que cela pourrait être faisable depuis Acrobat, mais je ne suis pas tout à fait sûr.
la source
Une raison possible à cela pourrait être que l'incorporation de polices dans le PDF utilisait un encodage personnalisé, qui n'est pas correctement appliqué lors de la copie de texte à partir du PDF.
Vous pouvez appliquer différentes méthodes pour vous éviter de taper manuellement tout le contenu.
la source
Un de mes utilisateurs vient de signaler le même problème (le PDF a été créé avec Distiller pour Windows), le texte copié n'est que du texte tronqué et il n'a pas pu effectuer de recherche dans un document. J'ai essayé sur mon Mac et je n'ai trouvé aucun problème. Il s'est avéré que j'ai utilisé l'application Aperçu d'Apple, alors qu'il utilisait Adobe Reader sur sa machine Windows. J'ai ensuite essayé Adobe Reader sur mon Mac et j'ai subi le même effet. Pour moi, cela ressemble à:
Adobe Reader recoupe et recherche le texte enregistré.
L'aperçu d'Apple copiera et recherchera après avoir appliqué le vecteur d'encodage.
Je ne peux pas le dire avec certitude, mais cela expliquerait mon observation. Et cela permettrait en effet de faire toutes sortes d'encodage lors de l'enregistrement de fichiers combinés / réduits comme décrit dans un autre article ici: avec Aperçu, vous pouvez toujours récupérer le texte.
J'ai d'abord pensé qu'il serait plus logique d'encoder le sous-ensemble de polices incorporées en tant qu'entrées contiguës au lieu de laisser des trous à l'intérieur et d'utiliser l'emplacement de caractère d'origine. Mais je me suis alors rendu compte qu'en utilisant un vecteur d'encodage du sous-ensemble de polices avec les entrées originales, les caractères qui sont souvent utilisés peuvent avoir moins de bits mis à 1 dans leur octet et peuvent être compressés d'une meilleure manière (cela peut réduire l'entrophie du texte global de cette façon).
la source
Le télécharger sur Google docs et en utilisant l'option Affichage> HTML simple , donne un texte copiable de texte correct à environ 80% avec un peu d'espaces manquants.
Ce fil avec une réponse acceptée au même problème explique cela avec un exemple de travail.
la source
Je n'ai pas essayé l'option Google Docs car elle n'est toujours pas prise en charge dans mon bureau. Cependant, en imprimant le fichier dans "ScanSoft PDF Create!" depuis "Acrobat 9" (imprime le fichier entier sur l'image) et en ouvrant le fichier imprimé dans "Nuance PDF Converter" (cela m'a demandé si je voulais rendre le fichier image consultable et modifiable, ce que j'ai choisi), j'ai pu avoir un document Word que je peux facilement copier et coller. Ce n'est pas parfait cependant avec seulement environ 80 à 90% de précision. Mais bon, vous avez toujours le fichier PDF d'origine pour comparer et compenser les parties qui ne peuvent tout simplement pas être réparées. Économise du temps de taper le tout. Mon 2c.
la source
J'ai créé des fichiers PDF modifiables avec une ancienne version de Scansoft PDF Converter pour Windows XP, puis j'ai combiné les pages dans le programme Aperçu de Mac. Pour chacune des pages séparées, je pouvais rechercher, copier et exporter le texte correctement à partir d'Adobe Reader sur Mac. Lorsqu'ils sont combinés par Aperçu et enregistrés en un seul fichier, tous semblaient bien à l'écran, mais seuls quelques passages étaient consultables / exportables correctement. Ce problème m'a amené ici.
Les messages ici m'ont donné de bons conseils (merci!). J'ai regardé les propriétés du fichier pour les polices. Les fichiers d'une seule page de Win XP (où tout va bien) indiquaient que l'encodage était ANSI. Le fichier combiné dans Aperçu (où le texte copié est tronqué) montrait le codage de la plupart des polices comme "Intégré" avec quelques-unes comme "Roman".
La solution à mon problème était sous mon nez tout le temps - le programme Scansoft lui-même peut combiner des fichiers. Lorsque j'ai utilisé le combineur de Scansoft et ouvert le fichier sur le Mac, toutes les polices étaient affichées au format ANSI et tout le texte exporté / copié parfaitement. Pourquoi diable je ne les ai pas combinés dans PDF Converter en premier lieu, je ne sais pas. Merci, affiches!
Il en va de même pour l'ouverture des fichiers sur un système Linux.
Je sais que cela n'explique pas les problèmes Windows uniquement - à moins que le PDF n'ait des origines mixtes similaires?
la source