Existe-t-il un moteur d'indexation de texte intégral pouvant être interrogé à partir de la ligne de commande et ne nécessitant idéalement pas l'utilisation d'une interface graphique?
Je suis particulièrement intéressé par l'indexation de mes livres électroniques et de mes documents. Il s'agit donc d'un mélange de pdf, d'epub et de quelques djvu. Les documents Office (ouverts) seraient bien, mais beaucoup plus bas sur ma liste.
command-line
search
Julien
la source
la source
Réponses:
Avez-vous regardé Lucene ou Sphinx? Bien que vous deviez initialement analyser les documents que vous souhaitez indexer, une fois l’opération terminée, l’un ou l’autre peut effectuer une recherche à partir de la cli.
Pour Lucene, il y a quelques informations sur cette manipulation disponible .
Sphinx, est un peu plus vague, mais il existe également une documentation disponible . Vous pouvez transmettre des données XML structurées de votre choix à sphinx via la source de données xmlpipe2.
Lucene repose sur Java, tandis que Sphinx est construit en C ++ sans aucune dépendance extérieure nécessaire.
L’un ou l’autre nécessitera un peu de travail pour faire ce que vous voulez, mais cela semble être une solution tout à fait viable.
la source
Découvrez xapian . Il possède une interface de ligne de commande et peut indexer de nombreux formats.
la source
Recoll peut être construit sans interface graphique et recherchera vos types de documents à partir de la ligne de commande.
Il utilise Xapian sous le capot.
la source
Tracker peut être appelé à partir de la ligne de commande et gtk + n'est pas une dépendance difficile pour un projet (mais peut l'être pour des packages).
la source
Cette réponse recommande d'utiliser la recherche de code de Google ,
Les super-utilisateurs de Debian / dérivés peuvent essayer:
sudo apt-get install codesearch
la source
Il existe actuellement deux flux de suivi, stable (0.8) et instable (0.9). Votre système d'exploitation a probablement la version 0.8, donc si vous pouvez vous le permettre (il a des dépendances logicielles à la pointe de la technologie), récupérez le dernier fichier .tar (0.9.x). Il présente de nombreuses améliorations par rapport à 0,8 et est en cours de stabilisation pour atteindre 0,10 (les chiffres pairs représentent la stabilité). Si vous choisissez cette route, utilisez cette commande pour configurer:
Les dépendances ne seront probablement pas installées, il est donc préférable d’installer simplement 0.8 depuis votre distribution et d’éviter les bits de l’interface graphique. Sur Debian Squeeze, Ubuntu 10.10 et Ubuntu 11.04, ceux-ci sont bien séparés. Donc (en tant que root ):
L'outil CLI pour cela est
tracker-search
, alors lancez-le avec l'--help
option pour voir comment en tirer parti :-)notes :
tracker-applet
ettracker-preferences
. Ils ont cependant un paquet séparé pourtracker-search-tool
, l'interface de recherche d'interface graphique.la source
J'ai travaillé sur l'écriture d'un outil de recherche de texte intégral (un nouvel apropos) pour indexer et rechercher des pages de manuel pour NetBSD cet été à l'aide de Sqlite3. Il se compose de deux outils de ligne de commande:
Vous pourriez facilement écrire un outil similaire pour vous-même. Pour les pdf, vous aurez besoin d'une bibliothèque pour analyser des documents pdf et, de la même manière, d'un utilitaire pour analyser les documents ouverts.
Vous pouvez en savoir plus sur le projet ici
Le code est ici
la source