Le PDF a tronqué le texte lors du copier-coller

23

J'essaie de copier et coller du texte à partir d'un fichier PDF.

Cependant, chaque fois que je colle le texte d'origine, c'est un énorme gâchis de caractères tronqués. Le texte ressemble à ceci (ce n'est qu'un petit extrait):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Je l'ai essayé dans les lecteurs PDF Adobe et Foxit. J'ai fait un «Enregistrer sous texte» dans Adobe Reader et le fichier texte résultant est le même texte tronqué.

Avez-vous des idées sur la façon de sortir ce texte sans brouillage? (À part la saisie manuelle ... il y a beaucoup de texte à extraire.)

ngm
la source
Essayez quelques utilitaires de lecture d'écran (qui fonctionnent avec jpeg, faites un écran d'impression et c'est parti) ou voici une autre façon . (Juste une «supposition», ne me mordez pas pour cela. J'ai utilisé le premier moyen à l'époque. J'espère qu'il existe des moyens plus pratiques).
Apache
Question similaire: superuser.com/questions/119393/…
Hugh Allen
Je peux également confirmer ce problème avec OS X, au moins à partir de 10.8.2. J'ai passé un peu de temps à parcourir la structure des fichiers PDF, mais malheureusement je ne vois aucun moyen de réparer les dégâts. "PreFlight" d'Acrobat Pro signale des problèmes avec le fichier lors de sa vérification par rapport à la norme PDF / A, et le rapport d'inventaire montre les glyphes mis en correspondance avec des caractères Unicode manifestement incorrects. J'ai soulevé un rapport de bogue avec Apple - ID 12655651. Je ferai rapport ici si / quand j'obtiens des mises à jour.
KenD
Doit être utile superuser.com/a/481510/153937
Ankit

Réponses:

11

Le moyen le plus simple de contourner ce problème consiste à ouvrir le fichier dans une version récente de Google Chrome avec un plug-in de lecture PDF intégré . Ensuite, vous pouvez utiliser la fonction de recherche de Chrome pour trouver du texte et le copier-coller fonctionne correctement.

Je voudrais voter pour le commentaire de pipitas sur la réponse de Shiki, mais je n'ai pas les crédits :( Le problème peut être un encodage de police personnalisé, pas un cryptage . Dans Acrobat, cliquez sur Fichier -> Propriétés, puis sur l'onglet Polices pour voir l'encodage et l'onglet Sécurité pour voir s'il est chiffré.

acatalept
la source
En effet, l'encodage de polices personnalisées était le coupable pour moi. Cependant, Chrome n'était pas la solution. J'ai résolu le problème partiellement avec Ghostscript régénérant un PDF à partir du PS (j'ai eu la chance d'avoir la source PS). Tous les groupes de caractères auxquels LaTeX applique des ligatures (par exemple ff, c, fi, etc.) n'apparaissent pas dans le texte copié du PDF, ce qui nécessite une modification lorsque vous copiez / collez.
Fuhrmanator
1
Même problème avec le chrome
JinSnow
4

J'ai découvert ce problème avec les fichiers PDF que j'ai créés et je pense avoir trouvé la source du problème: utiliser l'aperçu de Mac OS X pour réduire la taille du fichier PDF.

J'avais créé des filtres Quartz à l'aide de l'utilitaire Colorsync pour compresser les images au format PDF afin de réduire la taille globale des fichiers PDF contenant des images. Tels que décrits ici: http://www.macosxhints.com/article.php?story=20031106133852693

J'ai constaté que je pouvais facilement copier et coller du texte à partir du fichier PDF d'origine (non compressé), mais après avoir exécuté ce PDF via un filtre de réduction de la taille du fichier que j'ai créé, le PDF compressé résultant ne copie pas coller clairement (se présente comme les chaînes que vous avez publiées).

Cependant, en exécutant le même PDF d'origine via la fonction Document> Réduire la taille du fichier d'Adobe Acrobat Pro, le PDF compressé résultant peut copier et coller du texte avec succès.

Donc, cela n'est pas totalement utile dans votre cas, en supposant que votre fichier PDF a été reçu d'ailleurs et que vous ne pouvez pas accéder à la version d'origine, si elle a été effectivement compressée d'une manière ou d'une autre. Mais cela pourrait être l'explication - que le fichier a été altéré d'une manière ou d'une autre afin de réduire la taille du fichier.

Cela peut être utile pour les créateurs de contenu rencontrant des problèmes similaires de copie et de collage de texte à partir de PDF - soyez prudent en utilisant des filtres Quartz OS X pour réduire vos PDF!

--edit-- J'ai également remarqué ce problème lors de la combinaison de PDF avec Aperçu. Les deux fichiers PDF source peuvent être copiés et collés correctement, mais lorsque vous faites glisser une page d'un fichier vers l'autre fichier, puis enregistrez le PDF combiné, le texte du document combiné ne peut pas être copié / collé. Ce sont deux documents générés en même temps avec Filemaker Pro 11 sur Mac - je ne peux pas imaginer qu'ils auraient des encodages différents ou quelque chose de ce genre.

Daniel
la source
J'ai reçu quelques fichiers pdf d'un utilisateur de mac os. Sélectionnez est très bien, mais copier-coller vous donnerait juste des ordures. Essayez un tas de convertisseurs de pdf en mots, y compris googledoc, adobe save as text, tous donnent du texte tronqué.
tigr
Je soupçonne que le rétrécissement du PDF OS X est le coupable. Quelqu'un là-bas au courant de tout moyen de "défaire" une telle opération? Merci!
tigr
J'ai imprimé le fichier pdf sur plusieurs imprimantes (virtuelles) et j'ai obtenu des fichiers pdf de taille 4x gonflés. Le fichier imprimé apparent est l'image, aucune sélection de texte ne peut être effectuée, tandis que l'original peut être sélectionné (brouillé cependant).
tigr
4

Il existe un autre moyen très simple de contourner ce problème :)

Imprimez simplement le document en utilisant CutePdf, une imprimante Adobe 2 Pdf ou tout autre truc similaire. L'essentiel est que vous devez imprimer au format pdf.

Dans de nombreux cas, cela supprimera facilement le problème.

Nick Olszanski
la source
2

Solution qui a fonctionné pour moi:

  • Téléchargez le document sur Google Drive / Docs
  • Google l'importera (à partir de 2013) au format PDF
  • Ouvrez la vue PDF et choisissez Fichier > Ouvrir avec > Google Docs
  • Il faudra environ une minute pour exporter le document

Les résultats n'étaient pas parfaits, mais ils m'ont permis d'atteindre 80% du chemin et de me fournir suffisamment de texte pour que je n'ai pas à tout réécrire!

Gavin Miller
la source
2

RESOLU: (a travaillé pour moi sur Windows 8, Acrobat XI, Office 2010)

Option 1:

  1. Imprimer à partir d'Acrobat à l'aide de "Microsoft XPS Document Writer" La sortie est: "votre nom de fichier.oxps"
  2. Ouvrez "... oxps" avec XPS Viewer. * (voir lien de téléchargement dans les commentaires ci-dessous)
  3. Imprimez au format PDF (Acrobat PDF ou CutePDF), en utilisant la résolution la plus élevée (600 DPI).
  4. Ouvrez avec Acrobat et utilisez l'option OCR (Searchable Image (Exact)).

BINGO!

Commentaires:

  • L'utilisation de la résolution la plus élevée et de l'image consultable (exacte) permettra d'économiser votre texte sans perdre son aspect net. Une faible résolution rendra votre texte lisible, mais d'aspect merdique.
  • Téléchargez Microsoft XPS (fichiers): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Si vous ne savez pas ce qu'est l'OCR, ou où trouver une image consultable (exacte), ou comment imprimer à l'aide de "Microsoft XPS Document Writer", S'IL VOUS PLAÎT, Google sur votre propre, pour vos propres meilleures expériences.

* Téléchargez uniquement si vous n'avez pas installé XPS.

Option 2:

Faites de même, mais enregistrez en tant qu'image (png, tiff, ...), vous devrez alors combiner toutes les pages en un seul fichier "PDF".

user210118
la source
1
Les étapes 1, 2 et 3 semblent loin quand vous pouvez simplement passer à l'étape 3 Imprimer au format PDF. (Par exemple depuis l'intérieur de votre lecteur PDF). Pas besoin de faire un détour via XPS.
Hennes
@Hennes Faire l'étape 4 génère l'erreurAcrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator
«texte affichable» sonne comme quelque chose qui doit encore être dessiné (rendu). Possible déjà fait et stocké sous forme de bitmap compatible OCR si vous passez par XPS. Mais ce n'est qu'une supposition.
Hennes
1

Il existe un risque que les informations ne soient pas récupérables du tout. Les documents PDF sont essentiellement un document superposé à un autre, un texte simple, l'autre une image. Lorsque vous copiez et collez à partir du document, vous marquez le texte tout en regardant l'image, mais ce qui est copié dans votre presse-papiers est la partie correspondante de la partie texte.

Selon la façon dont le document est créé, la qualité et la disponibilité de la partie texte peuvent différer considérablement. Si vous enregistrez un document de traitement de texte au format PDF en utilisant Acrobat, Word, un pilote d'imprimante PDF ou toute autre méthode, la qualité sera généralement excellente, car le fichier texte peut être créé à partir du texte de l'original. Certains caractères spéciaux peuvent être déformés, mais le texte brut est généralement correct.

Si le document est créé à partir d'une image numérisée, cependant, la partie texte est généralement créée par traitement OCR de l'image, ce qui peut produire des résultats plutôt désolants, surtout si l'original n'est pas optimal pour le but.

Un mauvais programme utilisé pour créer le PDF, ou des paramètres incorrects, peuvent également entraîner une altération complète de la partie texte, comme cela pourrait être perceptible, certains types de cryptage exécutés sur le fichier après sa création.

En fin de compte, si la partie texte du document est vraiment mauvaise, il n'y a aucun moyen de l'améliorer. Le mieux serait de supprimer complètement la partie texte et de faire refaire le processus OCR par le programme. Je pense que cela pourrait être faisable depuis Acrobat, mais je ne suis pas tout à fait sûr.

Emil
la source
1

Une raison possible à cela pourrait être que l'incorporation de polices dans le PDF utilisait un encodage personnalisé, qui n'est pas correctement appliqué lors de la copie de texte à partir du PDF.

Vous pouvez appliquer différentes méthodes pour vous éviter de taper manuellement tout le contenu.

  1. Avez-vous essayé d'extraire le texte avec l'un des outils «pdftotext.exe» téléchargeables sur le «net»? (Je recommanderais celui inclus dans ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. La dernière version d'Acrobat Reader dispose d'une option "Enregistrer en tant que texte ..." . Cela n'utilise pas le «copier-coller» (qui vous a donné le texte tronqué), mais utilise probablement les mêmes routines logicielles que celles utilisées pour le rendu du texte à l'écran et peut donc produire des résultats plus utilisables.
  3. Si '2.' ne fonctionne pas et si vous avez accès à Acrobat Professional: essayez de distiller à nouveau le fichier PDF à l'aide de l'un des profils Distiller incorporant les polices.
  4. Si '3.' ne fonctionne pas, bien que vous ayez accès à Acrobat Professional: essayez de redistiller le PDF, mais cette fois, vous devez utiliser l'option 'imprimer comme image' (disponible via le bouton 'Avancé' dans le coin inférieur gauche de l'impression principale dialogue). Assurez-vous d'utiliser 600 dpi (bien que cela puisse produire un énorme fichier). Le fichier PDF résultant s'ouvre à nouveau dans Acrobat Pro. Appliquez maintenant l'algorithme OCR d'Acrobat au fichier, ce qui entraînera un texte incorporé (non utilisé pour le rendu à l'écran dans le Reader, mais utilisé pour la recherche et la mise en évidence des chaînes). Vous pouvez maintenant réessayer d'extraire le texte de ce PDF en utilisant l'une des méthodes décrites ci-dessus.
Kurt Pfeifle
la source
Pour moi, utiliser Acrobat Pro XI pour réimprimer au format PDF - mais avec "Imprimer en tant qu'image" coché (à 600 dpi) dans le bouton / sous-boîte de dialogue Avancé ... de la boîte de dialogue Imprimer ... - était l'astuce. Ensuite, vous pouvez enfin OCR correctement le résultat . Aucune des autres solutions mentionnées sur cette page n'a fonctionné. Remarque: pour un document volumineux, cela peut prendre un certain temps et le résultat PDF peut être assez énorme.
Glenn Slayden
@GlennSlayden: Heureux que mes conseils aient fonctionné pour vous ... Qu'est-ce qui manquait dans ce que vous pensiez qu'il ne méritait toujours pas un vote positif?
Kurt Pfeifle
J'ai voté. Il apparaît toujours pour moi comme «1». Ma seule plainte était que votre réponse était au fond et il m'a fallu un certain temps pour la trouver (ce n'est pas de votre faute ...)
Glenn Slayden
Ok, @GlennSlayden, alors ce vote positif devait être il y a longtemps (bien avant votre commentaire ci-dessus).
Kurt Pfeifle
Non, j'ai voté "il y a 12 heures" en même temps que j'écrivais le commentaire ... Je vois toujours une flèche bleue qui (je crois) signifie que mon vote est (le seul) vote actuellement enregistré. Et je me souviens que c'était «0» avant d'avoir voté hier soir.
Glenn Slayden
1

Un de mes utilisateurs vient de signaler le même problème (le PDF a été créé avec Distiller pour Windows), le texte copié n'est que du texte tronqué et il n'a pas pu effectuer de recherche dans un document. J'ai essayé sur mon Mac et je n'ai trouvé aucun problème. Il s'est avéré que j'ai utilisé l'application Aperçu d'Apple, alors qu'il utilisait Adobe Reader sur sa machine Windows. J'ai ensuite essayé Adobe Reader sur mon Mac et j'ai subi le même effet. Pour moi, cela ressemble à:

  • Adobe Reader recoupe et recherche le texte enregistré.

  • L'aperçu d'Apple copiera et recherchera après avoir appliqué le vecteur d'encodage.

Je ne peux pas le dire avec certitude, mais cela expliquerait mon observation. Et cela permettrait en effet de faire toutes sortes d'encodage lors de l'enregistrement de fichiers combinés / réduits comme décrit dans un autre article ici: avec Aperçu, vous pouvez toujours récupérer le texte.

J'ai d'abord pensé qu'il serait plus logique d'encoder le sous-ensemble de polices incorporées en tant qu'entrées contiguës au lieu de laisser des trous à l'intérieur et d'utiliser l'emplacement de caractère d'origine. Mais je me suis alors rendu compte qu'en utilisant un vecteur d'encodage du sous-ensemble de polices avec les entrées originales, les caractères qui sont souvent utilisés peuvent avoir moins de bits mis à 1 dans leur octet et peuvent être compressés d'une meilleure manière (cela peut réduire l'entrophie du texte global de cette façon).

Reuti
la source
1

Le télécharger sur Google docs et en utilisant l'option Affichage> HTML simple , donne un texte copiable de texte correct à environ 80% avec un peu d'espaces manquants.

Ce fil avec une réponse acceptée au même problème explique cela avec un exemple de travail.

Teqchiqe
la source
1

Je n'ai pas essayé l'option Google Docs car elle n'est toujours pas prise en charge dans mon bureau. Cependant, en imprimant le fichier dans "ScanSoft PDF Create!" depuis "Acrobat 9" (imprime le fichier entier sur l'image) et en ouvrant le fichier imprimé dans "Nuance PDF Converter" (cela m'a demandé si je voulais rendre le fichier image consultable et modifiable, ce que j'ai choisi), j'ai pu avoir un document Word que je peux facilement copier et coller. Ce n'est pas parfait cependant avec seulement environ 80 à 90% de précision. Mais bon, vous avez toujours le fichier PDF d'origine pour comparer et compenser les parties qui ne peuvent tout simplement pas être réparées. Économise du temps de taper le tout. Mon 2c.

Jhonrie
la source
0

J'ai créé des fichiers PDF modifiables avec une ancienne version de Scansoft PDF Converter pour Windows XP, puis j'ai combiné les pages dans le programme Aperçu de Mac. Pour chacune des pages séparées, je pouvais rechercher, copier et exporter le texte correctement à partir d'Adobe Reader sur Mac. Lorsqu'ils sont combinés par Aperçu et enregistrés en un seul fichier, tous semblaient bien à l'écran, mais seuls quelques passages étaient consultables / exportables correctement. Ce problème m'a amené ici.

Les messages ici m'ont donné de bons conseils (merci!). J'ai regardé les propriétés du fichier pour les polices. Les fichiers d'une seule page de Win XP (où tout va bien) indiquaient que l'encodage était ANSI. Le fichier combiné dans Aperçu (où le texte copié est tronqué) montrait le codage de la plupart des polices comme "Intégré" avec quelques-unes comme "Roman".

La solution à mon problème était sous mon nez tout le temps - le programme Scansoft lui-même peut combiner des fichiers. Lorsque j'ai utilisé le combineur de Scansoft et ouvert le fichier sur le Mac, toutes les polices étaient affichées au format ANSI et tout le texte exporté / copié parfaitement. Pourquoi diable je ne les ai pas combinés dans PDF Converter en premier lieu, je ne sais pas. Merci, affiches!

Il en va de même pour l'ouverture des fichiers sur un système Linux.

Je sais que cela n'explique pas les problèmes Windows uniquement - à moins que le PDF n'ait des origines mixtes similaires?

Jimbo
la source