Quelle est la meilleure méthode pour la manipulation de texte JPEG?

2

J'ai un graphique relativement simple. un schéma technique avec divers bouts de texte.

Le texte est dans une autre langue (tchèque / slovaque). Il est suffisamment imprimé pour être distingué et interprété avec précision par l'OCR (Android) de Google Translate. Quoi qu'il en soit, j'aimerais remplacer le texte par la traduction anglaise.

Dans ce cas, il ne serait pas difficile de simplement couper / masquer le texte actuel, puis d'ajouter toutes les nouvelles zones de texte avec des outils d'édition de base. Mais ce serait bien si je pouvais simplement sélectionner et éditer le texte de la même manière que certains éditeurs de PDF le peuvent.

J'ai essayé d'exporter le JPEG / PNG au format PDF, puis de le modifier avec Libre Office. Mais ce n'était pas différent de créer un document vierge et d'insérer l'image; c'était juste un seul objet.

Je comprends pourquoi et je ne m'attends pas à de la magie. Mais est-ce que quelqu'un a une technique pour ça?

tjt263
la source
Essentiellement, demandez-vous s’il existe un programme d’édition graphique permettant à l’OCR de reconnaître les éléments textuels d’un graphique et de les convertir en texte réel et modifiable? Si oui, il n'y en a aucun que je sache. Le texte n'est pas simplement du texte, il comprend des polices de caractères, du crénage, un espacement des lignes et toutes sortes d'autres variables. On dirait que ce serait une fonctionnalité vraiment cool, cependant!
Sandwich
@ Sandwich La plupart des éditeurs de PDF que j'ai utilisés ont déjà rencontré des problèmes de compatibilité des polices. Surtout lors de l'édition de documents à partir de systèmes d'exploitation étrangers. Cela ne m'a jamais causé aucun chagrin; J'ai toujours réussi à convertir le texte en une police native.
tjt263
Les PDF sont beaucoup plus "riches" que les JPEG, cependant. Les PDF sont destinés à permettre une impression de haute qualité à partir d'un document portable. En tant que tels, non seulement ils contiennent souvent des images JPEG intégrées pour les images, mais ils peuvent également stocker des données vectorielles pour des graphiques, ainsi que des données textuelles avec les directives de formatage correspondantes et la police elle-même, le tout caché dans le fichier PDF lui-même. C'est la raison pour laquelle de nombreux PDF ont un texte copiable et interrogeable. L'OCR est ce à quoi nous devons recourir lorsqu'il n'y a PAS de données textuelles sous-jacentes - il essaie de comprendre les lettres à partir de données de pixels purs.
Sandwich

Réponses:

2

Le moyen le plus simple de procéder (sans regarder la complexité du document) est d’utiliser un logiciel de PAO pour placer l’image, la verrouiller, puis ajouter des zones de texte individuelles sur fond blanc. Vous pourrez avoir un placement très précis et vous pouvez simplement dimensionner la boîte pour couvrir l’ancien texte. Vous pouvez ensuite exporter au format PDF ou un format d'image plat.

Scribus est un package de PAO open source gratuit inspiré de Quark ou d'InDesign.

Word, etc. a souvent une facilité avec des zones de texte, mais je trouve cela fastidieux par rapport au logiciel de PAO.

Si vous nettoyez suffisamment l'image, vous pouvez utiliser Inkscape (source ouverte) ou Illustrator pour "tracer" ou "Tracer en temps réel" l'image. Le texte risque alors d'être éditable en tant qu'objets vectoriels autres que du texte. sera probablement problématique, et même alors, cela prendra plus de temps que de placer de nouvelles zones de texte.

Yorik
la source