J'ai Linux Mint 17.2 x32 Cinnamon. Ces étapes fonctionneraient probablement aussi dans Ubuntu 14.04 x32.
- Installer Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-fra Vous pouvez ajouter d'autres langues en installant des packages supplémentaires. Cette capture d'écran provient de synaptic:
packages linguistiques Tesseract dans Synaptic
Utilisation de Tesseract
OPTION 1 - en ligne de commande, ouvrez le terminal, puis allez dans le dossier où vous conservez les fichiers image (jpg, png) et exécutez la commande:
a) convertir tous les fichiers image en texte
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Pour fusionner tous les fichiers texte en un, exécutez une commande cat *.txt >> all.txt
b) convertir tous les fichiers image en fichiers hocr (ouvrir avec Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
OPTION 2 - par GUI
a) Installez gImageReader et utilisez-le
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) La deuxième demande est le VietOCR. La version actuelle est 4.0, alors téléchargez VietOCR-4.0.zip
Décompressez les fichiers et ouvrez VietOCR.jar par Java:
Ouvrez VietOCR par Java
Si vous n'avez pas Java installé, vous pouvez l'installer à partir du référentiel ou vous pouvez installer Oracle Java 8. officiel Étapes pour installer Oracle Java 8 dans Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Je recommande VietOCR, car il vous permet de convertir des fichiers pdf en OCR, la conversion en masse est également une option.