Comment rechercher du texte dans un fichier PDF

2

Je voudrais rechercher du texte dans un fichier PDF. Par exemple, où se trouve le mot "aller à" dans mon PDF? Si vous le trouvez, quelle page y a-t-il?

Je trouve cette ligne de commande:

find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"

Il en résulte des éléments.

J'aimerais avoir le numéro de page de mon résultat. Comment récupérer cet article?

Braiam
la source

Réponses:

7

pdfgrep semble faire cela. De la page de manuel :

-n, --page-number
Prefix each match with the number of the page where it was found.
Kai Sternad
la source
Merci beaucoup, désolé pour ce sujet, j'aurais dû voir cette page!
Désolé, mais pdfgrep n'est pas installé sur mon serveur. J'installe poppler-utils mais je ne peux pas installer pdfgrep. Donc, je n'ai aucun résultat
Pourquoi ne pouvez-vous pas installer pdfgrep?
Kai Sternad
Sur Centos 5.7 et Ubuntu 9.10: apt-get (ou yum) installe pdfgrep: Aucun paquet pdfgrep n'est disponible. Je télécharge le fichier 1.3.0.tar.gz, unzip, ./configure: configure: error: La configuration requise pour le package (poppler-cpp) n'était pas remplie: aucun package 'poppler-cpp' n'a été trouvé. Je ne peux rien faire
Pdfgrep est disponible à partir d’Ubuntu 10.10. Je viens de l'installer avec succès dans une machine virtuelle Ubuntu 11
Kai Sternad
1

Par défaut, pdftotext insère des caractères de formulaire (0xC) entre les pages. Vous pouvez les compter jusqu'à l'apparition du mot que vous recherchez.

Une autre façon consiste à utiliser l' bboxoption:

 Generate an XHTML file containing bounding box information for each word in the file.

Ici, chaque mot est enfermé dans un pageconteneur. Vous pouvez donc prendre l'index + 1 de pagevotre mot en tant que numéro de page


la source
Avez-vous un exemple pour l'obtenir?
1

Recoll peut rechercher des documents PDF. Il dispose d'un mode de ligne de commande, mais l'interface graphique sera plus utile pour détailler l'emplacement des correspondances et vous permettra de cliquer sur Ouvrir le document au bon endroit.

utilisateur2391635
la source