Je voudrais rechercher du texte dans un fichier PDF. Par exemple, où se trouve le mot "aller à" dans mon PDF? Si vous le trouvez, quelle page y a-t-il?
Je trouve cette ligne de commande:
find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"
Il en résulte des éléments.
J'aimerais avoir le numéro de page de mon résultat. Comment récupérer cet article?
Par défaut, pdftotext insère des caractères de formulaire (0xC) entre les pages. Vous pouvez les compter jusqu'à l'apparition du mot que vous recherchez.
Une autre façon consiste à utiliser l'
bbox
option:Ici, chaque mot est enfermé dans un
page
conteneur. Vous pouvez donc prendre l'index + 1 depage
votre mot en tant que numéro de pagela source
Recoll peut rechercher des documents PDF. Il dispose d'un mode de ligne de commande, mais l'interface graphique sera plus utile pour détailler l'emplacement des correspondances et vous permettra de cliquer sur Ouvrir le document au bon endroit.
la source