J'ai besoin de surveiller de gros fichiers journaux bruyants (500 m / jour) à partir d'une application Java (log4j). En ce moment, je regarde manuellement les fichiers, grep pour "ERREUR" et ainsi de suite. Cependant, il devrait être possible pour un outil de repérer des motifs répétitifs dans le fichier, de les compter et de fournir une analyse détaillée des détails des entrées individuelles. Quelqu'un connaît un tel outil? Une interface texte ou basée sur le Web serait bien.
12
perl
.Réponses:
J'ai entendu parler de personnes appliquant le filtrage bayésien sur les fichiers journaux pour repérer des choses intéressantes par rapport aux entrées de journal de routine. Ils ont utilisé des filtres anti-spam, où les entrées inintéressantes de routine étaient considérées comme "bonnes" tandis que celles inhabituelles étaient considérées comme "spam" et en utilisant cette coloration, elles pouvaient passer.
Cela ressemble beaucoup à des choses d'apprentissage automatique pour moi, mais encore une fois, je ne les ai pas vues en action, j'en ai seulement entendu parler au cours des bières.
la source
Splunk fait des merveilles pour ce genre de choses. Je l'utilise en interne pour rassembler tous les journaux et faire des recherches rapides via son excellente interface basée sur un navigateur.
la source
syslog-ng a une fonction nommée patterndb. Vous pouvez créer des modèles et leur faire correspondre des entrées de journal en temps réel, puis envoyer ces entrées à des fichiers journaux distincts.
la source
En examinant syslog-ng et patterndb (+1 à cette réponse ci-dessus), j'ai rencontré un outil Web appelé ELSA: http://code.google.com/p/enterprise-log-search-and-archive/ . C'est F / OSS en perl, avec une interface web, et censé être vraiment rapide.
Je ne l'ai pas encore essayé, mais une fois le filtrage à l'aide de patterndb terminé, j'essaierai ELSA.
la source
Essayez petit .
Je ne sais pas si cela fonctionnera avec le format log4j, mais vous pourrez peut-être écrire un filtre personnalisé pour cela.
Petit n'a pas d'interface web, il affiche des graphiques dans votre shell (ftw art ASCII!).
Il est très utile de voir rapidement les messages répétés et de déterminer quand ils se sont produits ou ont commencé à se produire plus fréquemment.
la source
Si vous utilisez debian / squeeze sur votre serveur, consultez log2mail: http://packages.debian.org/squeeze/log2mail
la source
Glogg est un très bon explorateur de journaux car vous avez la possibilité de créer un filtre de base sur une chaîne et une ligne de couleur ou de récupérer toutes les occurrences dans une chaîne.
la source
Splunk est généralement une bonne solution pour cela. Mais vous avez dit que c'était trop cher pour vous. Je vous recommande donc de regarder Logstash ou GrayLog .
la source
Vous pouvez essayer LogXtender de SEQREL, qui détecte automatiquement les modèles et agrège les journaux similaires. Pour ce faire, créez des expressions régulières à la volée et utilisez l'expression régulière mise en cache pour faire correspondre d'autres journaux. Avec une détection de taxonomie supplémentaire, plus de granularité peut être ajoutée. Une version gratuite peut être téléchargée sous https://try.logxtender.net .
la source