Comment transformer des photos de documents papier en un document numérisé?

44

Mon scanner est cassé! J'ai un bon appareil photo, alors j'ai pris quelques photos des documents que je veux numériser ... Cependant, ils ressemblent à des photos sur papier, pas à des documents numérisés:

  • Les images ne sont pas plates
  • L'éclairage n'est même pas (ombres lorsque la page se déforme, etc.)
  • De toute évidence, le texte n'est pas transformé en texte PDF pouvant être copié-copié.

Ils ne conviennent tout simplement pas à un usage professionnel, mais ils sont proches.

Je cherche quelque chose (ou méthode) capable de faire tout ou partie de ce qui précède afin de pouvoir passer d'un certain nombre de fichiers JPG à un seul fichier PDF annoté [éventuellement] de l'ensemble, au bon format (A4 typiquement).

Des suggestions (à part sortir et acheter un nouveau scanner)?

Oli
la source
1
Sur Android, l'application Google Drive peut effectuer un peu de traitement et vous fournir un PDF au format A4 à partir d'un ensemble d'images (création d'un nouveau "scan") - appliquez du texte en noir et blanc et un peu de redressement créant) dessus, et cela ressemble surtout à un scan (de basse qualité). OCR est un problème plus difficile.
muru
Je ne connais aucun logiciel Ubuntu, mais j'ai jeté mon scanner après avoir découvert qu'il existait des applications sur un téléphone mobile qui faisaient généralement la même chose. Vous voudrez peut-être consulter l'application Genius Scan (pour Android) ou Scannable (pour iPhone). Ensuite, appliquez-les pdfjoinà coudre ensemble. Pas d'OCR cependant.
Jos
La raison pour laquelle je souhaite le faire via des photos plutôt que sur une application mobile est que mon reflex numérique est [littéralement] environ mille fois supérieur à celui de l'appareil photo de mon téléphone. Et si rien ne fait cela d'un seul coup, je pense en fait que je peux gérer moi-même l'OCR. Il y a beaucoup de projets open source qui font assez bien leur travail.
Oli
Je viens peut-être de réanimer mon scanner avec du ruban adhésif, du pain grillé et du bourrage de sorte que l'urgence est désactivée, mais je pense que c'est toujours un problème intéressant.
Oli
Oli , j'ai cherché quelques exemples sur Stackexchange comme ceci: tex.stackexchange.com/questions/94523/simulate-a-scanned-paper et this stackoverflow.com/questions/8955425/… mais je ne sais pas si j'ai bien compris votre question;)
JoKeR

Réponses:

46

Il y a plusieurs façons de le faire. Bien que toutes mes manières suggérées aient un problème, elles ne vont pas aplatir votre image. Une image plus ou moins bonne serait toujours nécessaire.

Un moyen simple est d’essayer le logiciel ScanTailor.

sudo apt-get install scantailor 

Il vous guide en 6 étapes pour optimiser vos photos. À la dernière étape, vous pouvez sélectionner l'option "Égaliser l'éclairage", ce qui vous donnera un aspect net et net!


Personnellement, je n'utilise généralement que GIMP . Mais vous avez besoin de compétences de base pour atteindre votre objectif.

sudo apt-get install gimp 
  1. recadrer l'image de la manière voulue
  2. utilisez l' option Colors-> Curvespour manipuler la sortie couleur à votre guise ...

Ajustez les courbes de couleur pour obtenir une sortie nette et agréable.


Gscan2pdf est un autre joli petit programme , où vous pouvez également charger des photos et les exporter au format PDF. Il existe même un lien vers GIMP afin que vous puissiez améliorer la photo avec les étapes décrites ci-dessus .

sudo apt-get install gscan2pdf 
avec qui
la source
1
Jamais vu ScanTailor auparavant. Il semble être presque parfait, sauf que je ne peux pas trouver comment le sauvegarder en tant que quelque chose que je veux conserver (par exemple, un fichier PDF). Des idées?
Oli
PS: bienvenue sur Ask Ubuntu et Stack Exchange!
Oli
1
@Oli la sortie est enregistrée dans le dossier que vous avez sélectionné au début. Comme je le vois maintenant, cela l’enregistre en tiff. Donc, vous souhaitez exécuter un convert file.tiff file.pdfdans la console.
Wittich
2
Oh oui, mon mauvais. J'utilise plusieurs pages, je vais donc les convertir en png find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;puis les rejoindre pdfjoin --outfile output.pdf --a4paper --rotateoversize false *.png. Je réfléchis juste à haute voix pour quand j'oublie comment faire tout ça :) Merci encore.
Oli
2
ScanTailor était une découverte !!! Je ferais habituellement tout ça dans Gimp ou une application propriétaire comme Gimp, mais scan tailleur ne possède que les fonctionnalités dont j'ai besoin pour convertir mes images en images numérisées, supprimant ainsi tout le bruit :) Bien plus facile que toutes les courbes que j'avais l'habitude de faire se déplacer dans Gimp. Merci beaucoup !!!
Kostyantyn
20

Pour générer une copie imprimable ou un PDF à partir d'une photo d'un document, vous devez convertir manuellement une grande quantité d'images similaires à celles d'un scanner. La plupart de ces conversions peuvent être effectuées avec Gimp.

  1. Essayez de tirer le meilleur parti de l’ image source originale :

    • Choisissez une lumière vive pour réduire le bruit de pixel, mais pour éviter les réflexions, les saignements ou une dispersion lumineuse inégale, n'utilisez pas de flash, sauf si vous disposez d'un équipement de flash de studio.
    • Si possible, choisissez d'allumer la source d'au moins deux côtés (haut-bas ou droite-gauche)
    • Prenez la photo à une distance plus grande en utilisant un téléobjectif plutôt qu'un objectif grand angle.
    • Utilisez un trépied pour éviter de secouer les artefacts.
    • Pointez la caméra orthogonalement à la surface de la source.
    • Incluez de l'espace en bordure de la source d'origine.
  2. Envisagez la désaturation en niveaux de gris pour un meilleur contraste et la suppression des artefacts de pixels colorés.

    entrez la description de l'image ici

  3. Ajustez la luminosité et le contraste pour rendre le fond vraisemblablement gris et les lettres noires en noir.

    • Cela peut être rapidement fait avec l' outil Couleurs Gimp > Niveaux où nous pouvons faire glisser le point noir (à gauche) et le point blanc (à droite) ou sélectionner les points noir / blanc avec le sélecteur de couleur.

    entrez la description de l'image ici

    • Les ombres sur les coins courbés ne peuvent pas être supprimées sans supprimer également certaines parties du texte (voir 6.)
  4. Supprimer la distorsion du coussin?

    En fonction de la qualité de notre objectif photo et du niveau de zoom que nous avons utilisé, il est possible que certains artefacts de coussin entraînent le pliage des bordures extérieures du document. Il existe des plugins pour supprimer également ces artefacts, mais nous pouvons trouver plus rapide de choisir un niveau de zoom de notre caméra où ils sont minimes seulement. Après le recadrage (5.), nous ne pouvons même plus les remarquer. Il sera donc peut-être nécessaire de supprimer les artefacts de coussin uniquement si notre image source présente de nombreuses lignes droites dans les parties extérieures.

  5. Faites pivoter et rogner ou mettez en perspective l'image si nécessaire.

    Contrairement à un scanner, notre appareil photo peut ne pas obtenir la source parallèlement aux limites de l'image. L' outil Rotation ou Perspective de Gimp nous fournit un retour visuel pour pouvoir faire pivoter ou ajuster la perspective d'une image jusqu'à ce que les lignes de texte soient parallèles à la page.

    entrez la description de l'image ici
    Outil de perspective sur le côté droit

Nous pouvons maintenant sélectionner la source du document avec l’outil de sélection de rectangle pour rogner l’image à l’intérieur du document.

  1. Supprimez les ombres indésirables des courbures, des plis ou des artefacts de vignettage de l'objectif de l'appareil photo.

    • Ces ombres sont difficiles à supprimer et il n'y a pas de plugin ou de filtre automatique pour nous aider.
    • En théorie, nous pourrions superposer un remplissage en dégradé à ces régions, mais cela pourrait ne pas donner les résultats escomptés et donc ne pas valoir le temps dont nous aurions besoin.
    • La méthode la plus rapide consiste donc simplement à utiliser l'outil Gomme pour supprimer toutes ces ombres laides en dehors du texte (que nous devrions épargner).

      entrez la description de l'image ici effacé -> entrez la description de l'image ici

  2. Échelle d'image?

    En fonction de la résolution de la caméra, l’agrandissement de l’image en une taille de scanner augmentera uniquement la taille du fichier, mais n’aura aucun avantage en termes de qualité d’image. Réduire va supprimer les détails. Par conséquent, nous ne devrions pas redimensionner l'image, mais ajuster la taille d'impression à partir de la boîte de dialogue de l'imprimante (ou inférieure dans 8.).

  3. Générer un PDF

    Nous pouvons importer notre image maintenant restaurée manuellement dans LibreOffice ( Insertion> Média ) pour

    • Définir ses dimensions
    • Exporter en PDF
    • Imprimer (pour moi, l’impression à partir de LibreOffice conduit beaucoup plus souvent au résultat souhaité).
Takkat
la source
Merci beaucoup pour les étapes détaillées. Ils m'ont aidé à résoudre un problème de longue date de conversion de photos en documents numérisés. Je suis totalement impressionné par le pouvoir de la transformation de perspective.
Chethan S.
Réponse géniale! L’outil de perspective m’a beaucoup dérouté au début, alors voici un excellent guide. J'ai ajouté 4 repères, puis droguer les coins de l'image à l'aide de l'outil de perspective jusqu'à ce que l'image soit rectiligne avec les 4 repères.
Gabriel Staples
(24 heures plus tard). Oops! J'ai oublié le lien. Voici le guide dont je parlais: lifewire.com/… .
Gabriel Staples
1

Si vous avez déjà l'image du document, téléchargez simplement l'application CamScanner sur votre téléphone / tablette. Cela vous permettra d'importer l'image, puis de faire un recadrage suggéré et de vous permettre d'aplatir, d'ajuster les couleurs / le contraste, etc. Cela ne prend qu'une minute.

Dan
la source