Impossible de copier le texte d'un fichier pdf

40

J'utilise foxit PDF Reader pour afficher mon livre de texte. Je voudrais copier le texte du fichier pdf dans un document Word, mais cela ne me le permettra pas. Je peux sélectionner le texte correctement, mais l'option de copier du texte n'est pas disponible. Je peux copier du texte à partir d'autres documents mais pas certains. Existe-t-il un moyen de contourner cette protection dans Windows?

Jonno_FTW
la source
Je vois que ma réponse ne fonctionne pas pour vous, alors vous avez posté une prime. Si vous postez quelque part un exemple d'un tel fichier pdf, je l'examinerai.
harrymc
@harrymc: Plus précisément, je cherchais à copier les valeurs du tableau 6.15 de acousticslab.org/papers/VassilakisP2001Dissertation.pdf
endolith le
@endolith: Voir ma nouvelle réponse.
harrymc

Réponses:

29

Le fichier pdf a probablement été bloqué contre la copie de texte. Voici deux manières de le déverrouiller:

  1. Si le fichier PDF n'a pas été verrouillé contre l'impression, vous pouvez l'imprimer sur une imprimante PDF virtuelle pour créer un fichier non verrouillé. Voir ceci:
    "Supprimer le mot de passe et déverrouiller les PDF protégés pouvant être imprimés sans connaître le secret" .
  2. Si la fonction d'impression a été verrouillée, consultez la section
    "Supprimer les restrictions et déchiffrer les fichiers PDF protégés par mot de passe avec PDF Unlocker" .
harrymc
la source
Vous pouvez voir si le PDF est verrouillé pour la copie. Dans le menu Fichier, choisissez Propriétés et, dans l'onglet Sécurité, indique si la copie du contenu est autorisée.
Rob Sedgwick
J'ai essayé d'imprimer le PDF. Le fichier imprimé ne permet pas de sélectionner du texte, il semble que le texte converti en image.
Queezz
@queezz: le fichier PDF doit contenir les images pour commencer.
harrymc
@harrymc Oui, il y a des images. Mais le texte est également converti en images. L'option Google Chrome fonctionne bien sur le même document.
queezz
Votre premier lien vous connecte à primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe qui est mauvais, il ne fonctionne pas et il semble que vous ne l’ayez jamais archivé sur archive.org non plus. Votre deuxième lien est ok, mais il renvoie à un site de partage de fichiers dfiles.eu/files/7kiqyvswk, mais le fichier est correct, vérifié avec virustotal. Mais ce n'est pas si facile à trouver car il y a plusieurs liens sur cette page mydigitallife. C'est là où il est écrit "PDF Unlocker est un outil gratuit et convivial que vous pouvez télécharger via le lien suivant (version actuelle 1.0.4)".
Barlop
25
  1. Ouvrez le fichier PDF dans Google Chrome (faites glisser un fichier PDF dans Chrome).
  2. Imprimez la page en tant que PDF ou ouvrez simplement l'aperçu avant impression.
  3. Vous pouvez maintenant copier le texte de l'aperçu avant impression ou du fichier PDF de sortie. Mais je ne pense pas que vous puissiez copier le tableau directement.
Khaleel
la source
4
Cela fonctionne pour moi aussi. C'est la méthode la plus simple que je vois ici.
endolith
3
Absolument brillant. Au fait, vous pouvez faire glisser des fichiers vers la barre d'onglets de Chrome pour les ouvrir rapidement.
iono
Aucune de ces méthodes n'a fonctionné pour moi dans Chrome 53. L'échappatoire a-t-elle été éventuellement fermée?
Simon East
11

J'ai pu créer une version de votre fichier PDF sans DRM à l'aide de Ghostscript (disponible pour Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Le fichier résultant stripped.pdfpeut être chargé dans Adobe Reader, qui vous permettra volontiers de copier n'importe quelle partie de celui-ci. Il préserve également la majeure partie du formatage du tableau.

Michael Hampton
la source
C'est génial. Mon comptable fiscal refuse de me donner des PDF non DRM, ni le mot de passe permettant de supprimer DRM. Cela résout mon problème. Excellent travail!
Kevin
Si le PDF a un mot de passe, veillez à inclure le -sPDFPasswordcommutateur ( -sPDFPassword=password).
palswim
2

J'ai réussi à copier le tableau de votre fichier PDF avec succès en utilisant Okular (pour Linux; composant de KDE). Pour ce faire, je devais aller dans les paramètres d'Okular et décocher "Obéir aux restrictions DRM".

Je suis conscient que cela ne vous aide pas beaucoup depuis que vous utilisez Windows, mais c'est une possibilité si vous avez une machine Linux à portée de main ou si vous souhaitez l'installer.

Malheureusement, il s’agissait de texte brut sans mise en forme, mais il semble qu’il ne devrait pas être trop difficile de recréer le tableau. Vous pouvez voir les résultats de mon aventure copier-coller ici .

Michael Hampton
la source
C'est à cela que s'adresse VirtualBox. : DI peut également copier le texte brut sans formater, mais en sélectionnant une colonne à la fois, il est assez facile à exporter.
endolithe
On dirait que cela convient mieux aux tableaux de nombres, car Okular vous permet de sélectionner un texte de manière rectangulaire et d’extraire une seule colonne dans l’ordre.
endolith
Pour les colonnes simples, probablement. Pour toute la table, voir mon autre réponse .
Michael Hampton
Notez que Okular peut fonctionner sous Windows. En fait, beaucoup de logiciels KDE peuvent fonctionner sous Windows .
Bakuriu
1

Vous pouvez utiliser GT Text est un programme qui traduit des images (également des instantanés pdf = image) en texte. Vous pouvez sélectionner la zone et la copier dans le presse papier C'est gratuit

La page d'accueil officielle est http://gttext.googlecode.com

David
la source
1

si la copie est grisée, comme le doute le est pour vous, alors le PDF est "verrouillé", il peut être lu, mais vous empêche en fait de copier / coller quoi que ce soit.

Ce site ouvrira un PDF

https://smallpdf.com/unlock-pdf

barlop
la source
0

Si vous recherchez uniquement des extraits courts, vous pouvez souvent saisir quelques mots dans Google entre guillemets et trouver la citation exacte déjà numérisée dans un autre format ou dactylographiée par quelqu'un d'autre.

Une autre option est "Document from Photo" dans l'application Android Google Docs, qui permet de transférer le texte via OCR. Ceci est sujet aux erreurs, bien sûr.

Je souhaite que la fonctionnalité de verrouillage PDF n'ait jamais existé. :(

endolithe
la source
0

Réponse à endolith:

Votre PDF est protégé contre la copie, mais non contre l’impression.

Donc, j'ai imprimé la page contenant le tableau 6.15 dans un autre PDF qui n'est pas protégé contre la copie, sélectionné et copié le tableau, puis collé dans Word. À ma grande surprise, le résultat de la pâte était un déchet total.

J'ai maintenant jeté un coup d'œil sur cette table et j'ai trouvé un résultat très surprenant: ce n'est pas une table!

C'est en fait un montage de petits morceaux de texte, positionnés sur la page de manière à ressembler à un tableau. Mais ce n'est pas une vraie table.

Le mieux que vous puissiez faire est de réécrire le tout sous forme de tableau ou d’utiliser simplement dans votre travail une capture d’écran de ce texte assemblé semblable à un tableau.

Voici ma capture d'écran du tableau, tirée de mon document pdf généré d'une page :

image

harrymc
la source
J'ai essayé de l'imprimer avec 2 programmes mais tout ce que j'ai obtenu était une page blanche.
endolithe
À l'aide de Foxit Reader , je me suis positionné sur la page, puis j'ai imprimé la page en cours sur un imprimeur pdf (j'ai utilisé Cute Pdf Writer ). Je vais essayer d'analyser le problème de la copie de la table ce soir,
harrymc le
J'ai essayé PrimoPDF et qvPDF (qui utilise GhostScript)
endolith
Voir mon addition ci-dessus.
harrymc
... J'ai également transféré mon pdf d'une page ici (temps d'attente de 60 secondes).
harrymc
0

Une autre possibilité est Evince .

Sous Windows , il semble prendre en charge la copie par défaut.

Sous Linux, la copie peut être activée en vérifiant le override_restrictionsréglage si ce n’est pas déjà fait, en suivant ces instructions ( dconf-editor/org/gnome/evinceoverride_restrictions).

endolithe
la source