J'ai obtenu un document image numérisé de la banque et je souhaite le convertir en document texte normal avec des images dans Ubuntu.
Existe-t-il un outil pour cela?
J'ai obtenu un document image numérisé de la banque et je souhaite le convertir en document texte normal avec des images dans Ubuntu.
Existe-t-il un outil pour cela?
Il existe un certain nombre de lecteurs OCR pour Linux qui peuvent convertir une image en texte. Regardez les options suivantes:
Tous les éléments ci-dessus, à l'exception d'ocropus, sont présents dans le référentiel Ubuntu dans un package du même nom.
Différents lecteurs prennent en charge différents formats d'image, vous pouvez donc être limité dans vos options par le format de fichier dans lequel se trouve votre document. Alternativement, vous pouvez utiliser l' outil de conversion d'ImageMagick pour changer le format si vous souhaitez utiliser un lecteur OCR particulier.
Adapté de ma réponse ici .
Vous devez d'abord installer "tesseract-ocr" sur votre machine Linux.
sudo apt-get install tesseract-ocr
Vous pouvez le faire manuellement depuis CLI ou j'ai fait du code PHP pour le même, vous pouvez l'utiliser si vous le souhaitez.
Remarque: pour exécuter ce code, la commande exec doit être activée dans php.ini
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
mettre ce code dans le dossier racine et y accéder depuis le navigateur,
par exemple :
http://yourserver.com?input_file=1.png
Remarque: le fichier 1.png doit être présent dans votre répertoire actuel.
Je n'ai pas le droit de télécharger l'image, j'ai utilisé cette image pour référence, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview