J'ai quelques PDF qui contiennent des ligatures dans le texte (par exemple, ff
sont combinés en un seul caractère, ff
).
Existe-t-il un moyen simple de les supprimer lors de la copie du texte du PDF? (c'est-à-dire que lorsque je colle, j'aimerais que le ff
soit collé ff
).
Je copie beaucoup de texte de ces PDF dans les réponses sur Stack Overflow et je trouve les ligatures au mieux désagréables (ok, j'avoue, je suis vraiment difficile :-P); les ligatures n'apparaissent pas non plus correctement lorsqu'elles sont copiées dans d'autres endroits (par exemple, si je les copie dans le Bloc-notes, elles apparaissent sous forme de blocs).
Je ne peux pas modifier les PDF.
J'utilise à la fois Adobe Acrobat Reader et Foxit Reader, mais je serais prêt à essayer un nouveau lecteur PDF.
la source
J'ai répondu à une question similaire plus en profondeur - Pourquoi le texte «fi» est-il coupé lorsque je copie à partir d'un PDF ou que j'imprime un document?
Vous pouvez remplacer les mots «cassés» dans le texte copié si vous avez un mappage des mots cassés aux mots originaux. J'ai écrit un script pour générer ce mappage en supprimant les ligatures des mots et en vérifiant si le mot résultant est unique. Pour mon dictionnaire de mots anglais, 99,5% de tous les mots possibles cassés sont remplaçables, et 92,3% des mots qui contiennent une séquence de ligatures (
ff
,fi
,fl
,ffi
ouffl
) peut être récupéré. La différence entre ces deux pourcentages est dû au nombre étonnamment élevé de mots légitimes qui sont créés en supprimant les ligaments d'autres mots légitimes (commebutterfly --> buttery
,fluffs --> us
, etmisfits --> mists
).Voici un CSV de mots "cassés" remplaçables garantis (et les mots qu'ils étaient): http://www.filedropper.com/brokenligaturewordfixes
la source
Ma façon était simplement de copier et coller du PDF vers le bloc-notes (pour supprimer toute mise en forme), puis du bloc-notes vers Microsoft Word.
Dans Word, toutes les ligatures sont modifiées avec d'autres polices de mise en forme.
J'utilise find et replace pour chacun d'eux (comme ^ l pour l'interruption manuelle de la ligne et ^ m pour l'interruption manuelle de la page et ainsi de suite, vous pouvez tous les trouver facilement en ligne) et je remplace par un formulaire correct.
En 4 ou 5 étapes, je couvre toutes les possibilités assez rapidement. Il est également utile de supprimer les interruptions de paragraphe supplémentaires (^ P)
la source