Quel outil utilisez-vous pour surveiller vos serveurs?

187

Pour une liste plus complète des outils de surveillance et de leurs fonctionnalités, consultez cette page Wikipedia .

Comme le dit la question, quels sont les outils les plus couramment utilisés pour cette tâche et quels sont leurs points forts et leurs points faibles?

voretaq7
la source
Quelle est la plate-forme de votre serveur en cours d'exécution?
Glenn Slaven
1
Mes serveurs utilisent Debian Lenny, mais la question ne concerne pas uniquement la surveillance UNIX, car de nombreux outils auront probablement une forme de support multiplateforme.
Aron Rotteveel
Ils utilisent peut-être des outils différents, mais d'un point de vue système global, vous finissez par faire la même chose encore et encore sur les différents systèmes. C'est juste un peu de script pour extraire le dernier bit de données que vous voulez. Je considérerais les «outils» dans ce contexte, l'instance d'enregistrement (serveur de surveillance) et non le plug-in / script lui-même qui crache les données
serverhorror
J'aime également surveiller les applications (performances, disponibilité, etc.). Les outils de surveillance semblent avoir un spectre avec leur capacité à surveiller le matériel d'un côté et leur capacité à surveiller les applications de l'autre. Matériel <----- + -----> Application
Nathan Hartley

Réponses:

136

J'ai utilisé Nagios avec succès dans le passé. Il est très extensible (plus de 200 add-ons), relativement facile à utiliser et plein de rapports. Un négatif serait la configuration initiale.

Jdiaz
la source
10
Nagios fonctionne très bien pour surveiller tous les types d’hôtes (Windows, Linux, routeurs, commutateurs, etc.). Je recommande d’utiliser un outil de configuration tel que fruité ou Lilacto pour faciliter la configuration. NSClient ++ sur les fenêtres et nagios-statd sur linux pour surveiller les processus en cours, l'utilisation du disque, etc.
TonyB
Malheureusement, Nagios a besoin d’un agent sous Windows - jadis, j’avais trouvé cet agent notoirement sujet à la mort aléatoire.
PowerApp101
Nous avons examiné Nagios et Zabbix pour notre surveillance. Zabbix a gagné après une courte évaluation, principalement en raison de la facilité de déploiement et de la fonctionnalité (par exemple, Zabbix inclut la représentation graphique en tant que fonction principale, tandis que Nagios nécessite un plug-in). J'ai trouvé la configuration de Nagios compliquée.
GroundWork OpenSource possède une appliance de surveillance du réseau reposant essentiellement sur Nagios et simplifiant l'installation / la gestion
Rog
12
Il y a une nouvelle fourche de nagios appelée icinga. Ce n'est pas encore arrivé, mais leurs objectifs semblent prometteurs. icinga.org
cstamas
70

Cacti est une très bonne interface Web pour RRDTool , fournissant des graphiques et des statistiques très pratiques. RRDTool est la partie qui rassemble les données de plusieurs systèmes et surveille un large éventail de données techniques.

Nous utilisons cette solution cacti / RRDTool pour surveiller les systèmes Unix et Windows. Nous obtenons de nombreuses mesures utiles, notamment la charge, l'utilisation du processeur / RAM, de l'espace HD, des utilisateurs connectés, du trafic réseau, des processus en cours, etc.

Vous trouverez plus d'informations sur les cactus dans la rubrique Qu'est-ce que les cactus? page.

paulgreg
la source
Cacti est une solution amusante qui a fière allure et qui est offerte à un prix avantageux (gratuit). Cependant, la configuration des périphériques réseau est un PITA et a été mal documentée. Ce serait peut-être mieux maintenant, mais je ne m'y engagerais pas tant que vous n'auriez pas fait vos recherches.
Chris Porter
57

Personnellement, j'adore Munin, qui est très facile à installer et à écrire des plugins car son architecture est très simple. Il y a déjà pas mal de plugins pour tous les objectifs que vous pouvez imaginer, vous n'aurez donc probablement même pas besoin d'écrire des plugins en premier lieu.

Il fournit également de beaux graphiques et la possibilité de configurer des alertes (très basiques).

pilif
la source
2
Je suis aussi un grand fan de Munin. Il prend en charge l'intégration avec Nagios (pour que vous puissiez exécuter les deux) et prend en charge toutes les versions courantes de Unix. Je ne pense pas que l'assistance à la surveillance d'un nœud Windows soit prise en charge. Toutefois, il est écrit en Perl. Par conséquent, même si ce n'est pas anodin, cela devrait certainement être possible .
John Dalton
2
@John. Les nœuds Windows sont pris en charge via munin-node-win32, qui est un nœud munin natif, ou via SNMP, comme tout autre hôte.
Steve Schnepp
34

Zabbix . Il est open-source et relativement simple à configurer et à personnaliser. De nombreux scripts de surveillance personnalisés alimentent le serveur zabbix, mais celui-ci s’occupe de la centralisation, de l’affichage approprié, des notifications (courrier électronique, messagerie instantanée, SMS, Twitter, etc.), etc.

Tony Meyer
la source
2
Nous utilisons également Zabbix et le trouvons assez puissant et configurable. Nous avons testé à la fois Zabbix et Nagios et avons finalement opté pour Zabbix, car si Nagios semble avoir une bonne réputation, il est un peu difficile à installer et de nombreuses fonctionnalités proviennent de plugins plutôt que de les intégrer à la bon exemple, vous l’obtenez gratuitement avec Zabbix).
3
Je préfère Zabbix pour sa flexibilité en termes de représentation graphique et de cartographie de votre infrastructure (en termes de disponibilité) ainsi que pour un mode de surveillance flexible.
Andrioid
29

Je fais les déploiements de Spiceworks à notre entreprise et nous constatons qu'il est un outil non seulement pour surveiller les serveurs mais tout le reste sur le réseau.

Il effectue des opérations telles que l'inventaire automatique et la surveillance personnalisée pour vous envoyer des courriels en cas de problème (par exemple, le nombre d'imprimantes est réduit à 10% ou le disque dur de ce serveur en contient 20%).

Son inconvénient serait probablement la densité d’informations par ordinateur. Ne vous y trompez pas: il a BEAUCOUP de données par machine, mais pour des serveurs tels que les serveurs sur lesquels vous pourriez avoir besoin de beaucoup de statistiques, vous pourriez avoir besoin d’utiliser un autre outil.

EDIT: oh ai-je mentionné que son modèle commercial est basé sur sa gratuité pour toujours.

Shard
la source
Spiceworks fait beaucoup de choses géniales - et GRATUIT.
3
SpiceWorks possède une très grande communauté qui chevauche également ServerFault. Va être intéressant de voir l'interaction entre les communautés. J'utilise aussi SpiceWorks. Outil génial.
Scott Alan Miller
J'utilise maintenant ceci en fonction de votre recommandation. Excellent outil.
Marko Carter
Nous l'utilisons dans notre travail. C'est assez impressionnant. L’inventaire du matériel, sans parler des logiciels, vaut la peine d’être examiné seul.
Terry
La dernière fois que j'ai utilisé Spiceworks (version 3 quelque chose), il ne disposait d'aucun moyen d'ajouter ou de modifier des composants matériels tels que des moniteurs, des cartes vidéo, etc. Il les détecterait, mais souvent de manière incorrecte. Ainsi, j'utilise toujours GLPI + OCSNG, ce que je déteste .
Boden
18

Smokeping non seulement vérifie la disponibilité de divers serveurs et services, mais conserve également une trace de leur latence tout en offrant des graphiques faciles à utiliser, agréables à regarder et rapides à afficher .

Une large gamme de plug-ins de mesure de latence est disponible prête à l'emploi. Si vous connaissez Perl, il est facile de créer les vôtres pour tous vos besoins exotiques.

Les grandes installations bénéficieront du système maître / esclave pour les mesures distribuées.

Un système d'alerte hautement configurable vous aidera à remarquer les problèmes avant qu'ils n'affectent les utilisateurs ou ne deviennent des pannes majeures.

Smokeping est un logiciel gratuit et OpenSource écrit en Perl par Tobi Oetiker, créateur de MRTG et de RRDtool.

Linuline
la source
Smokeping, c'est bien de voir à quoi ressemble votre réseau
Rory
Fumer est incroyable pour visualiser la latence.
James
15

OpenNMS est utilisé là où je travaille pour surveiller plus d’un millier de machines Linux. Nous surveillons le matériel de chaque machine et les applications qui y sont exécutées.

Jassuncao
la source
+1 pour OpenNMS, nous l’utilisons également au travail pour surveiller des milliers de machines et d’interfaces. Nous avons de nombreux systèmes d’exploitation différents et nous sommes en mesure de tous les surveiller à l’aide d’OpenNMS.
Steve K
pas mon premier choix mais très utile
comment est-il avec l'ajout de MIB pour le nouveau matériel?
Slovon
OpenNMS a déjà beaucoup de statistiques snmp dans sa configuration par défaut, ce qui lui permet de détecter automatiquement et de commencer à tracer des graphiques. Les nouvelles statistiques SNMP sont assez faciles à ajouter. Il suffit de nommer le RRD, l’OID et le type de données, puis de les placer dans un groupe correspondant au type de périphérique auquel les statistiques s’appliquent.
mtinberg
15

Zenoss Core est d’une certaine utilité. Nous l’utilisons (depuis environ un an) pour une surveillance légère des serveurs, des commutateurs de réseau et des onduleurs.

Zenoss Core est un produit de surveillance informatique open source primé qui gère efficacement la configuration, la santé et les performances des réseaux, des serveurs et des applications via un seul progiciel intégré.

gimel
la source
Si vous utilisez la version gratuite de Zenoss Core, soyez prêt à peaufiner les modifications apportées à la MIB SNMP. J'ai également constaté qu'il refusait fermement de collecter les données du système d'exploitation sur certains de mes serveurs et qu'il était étonnamment difficile à configurer pour des tâches simples telles que la vérification du contenu d'une page Web.
gareth_bowles
Peut comprendre les problèmes de MIB, mais la vérification de page Web peut être effectuée avec les plugins Nagios sur Zenoss.
Gimel
12

Nagios est génial car c'est gratuit et il y a beaucoup de plugins pour cela. Cependant, l'interface utilisateur et la configuration sont très difficiles.

C’est tout le contraire chez Microsoft System Center Operations Manager (SCOM) qui n’est pas gratuit, a moins de plugins, mais la configuration et la configuration sont brillantes et faciles.

Je dois admettre que si j'étais dans une société principalement Microsoft, si j'avais des exigences de confiance très élevées (je ne pouvais pas me permettre de surveiller) ou si je devais envisager de faire travailler les développeurs, SCOM serait ma recommandation par rapport à Nagios.

Robert MacLean
la source
12

J'ai utilisé:

  • Nagios - nécessite une configuration en ligne de commande ancienne, pas jolie, mais robuste et fonctionnelle. Il a été remplacé par:
  • Zenoss - nécessite beaucoup moins de jeu de pieds à mettre en place, a une variante commerciale. Une fois en cours d'exécution, le reste est contrôlé via un navigateur. Très puissant, mais nécessite quelques travaux MIB si vous utilisez la version gratuite.
  • Intermapper - programme commercial, dépensé si vous avez beaucoup de nœuds à surveiller. Semble être écrit en Java (pour le meilleur ou pour le pire).
  • Spiceworks - n'a pas essayé la dernière version. Les anciennes versions nécessitaient un peu plus de euphorie pour le faire réagir, mais sinon, cela fonctionnait bien. La version gratuite est livré avec des annonces nag.
Avery Payne
la source
Nous utilisons beaucoup Intermapper.
sysadmin1138
J'utilise également InterMapper. Le client de la console est écrit en Java. Le serveur est écrit en Python. Postgres est utilisé comme base de données principale pour l’agrégation de données et la création de rapports.
Lsiu
11

Nous utilisons AlertFox depuis quelques semaines et nous en sommes très heureux. Il vérifie non seulement notre disponibilité et nos performances, mais surveille également le panier, les identifiants de l'utilisateur et d'autres parties critiques du site Web via des scripts de transaction (basés sur iMacros).

Pour notre surveillance interne (espace disque, etc.), nous utilisons Nagios .

David Meiers
la source
10

PRTG Network Monitor - ne peut pas en dire assez sur ce sujet. Un front-end Web impressionnant, particulièrement adapté à la surveillance des routeurs (bande passante, etc.) et à d'autres périphériques via SNMP et à la mesure de la disponibilité des SLA, etc.

www.paessler.com

Brandon
la source
9

En tant que personne sous Windows, MOM. Nous envisageons de mettre à niveau vers SCOM (Systems Center Operations Manager), mais nous n’aurons pas besoin de le faire avant de déployer Windows 2008.

Richard Gadsden
la source
J'utilise MOM aussi. Je l'aime et je le déteste en même temps.
Spoulson
SCOM est une excellente plate-forme de surveillance pour les environnements d’entreprise Windows. Le vrai génie réside dans les packs de gestion publiés par les groupes de produits Microsoft eux-mêmes (cela fait partie des critères d'ingénierie communs MS selon lesquels chaque produit dispose d'un SCOM MP dans les 90 jours suivant la RTM). Obtenir des conseils et des connaissances des équipes produit elles-mêmes peut considérablement améliorer la capacité d'un service des opérations à garder les choses en cours et à rester en bonne santé sans déranger les administrateurs les plus expérimentés.
Kevin Colby
8

Je fais partie d'un projet de mise à niveau de la surveillance opérationnelle. Divers fournisseurs sont venus sur place pour présenter quelques systèmes très coûteux et combinés avec des alternatives moins chères à comparer.

L’un d’eux est Hyperic , également disponible en tant que solution open source gratuite. J'ai été impressionné par ses capacités livrées et son extensibilité pour les agents personnalisés.

Spoulson
la source
Bien que les ressources ne soient pas faciles à utiliser, c'est certainement un excellent outil de surveillance!
Vincent De Baere
8

Pour surveiller les statistiques (utilisation de la mémoire, charge, activité mysql, activité apache, etc.), j'utilise Munin . Hors de la boîte, il suit déjà beaucoup de choses et trace des graphiques pour différents intervalles de temps (dernières 24 heures, 7 derniers jours, mois dernier, année dernière). Grâce aux plugins, encore plus de choses peuvent être surveillées. Ses résultats sont des pages HTML avec de jolis graphiques.

Munin a une architecture maître / nœud: les nœuds rassemblent les statistiques sur un serveur et le maître stocke les données et produit du HTML et des graphiques.

J'utilise Monit pour suivre les processus en cours et pour redémarrer ou m'avertir lorsque certaines conditions configurables se présentent (charge élevée du processeur, utilisation importante de la mémoire, absence de réponse HTTP, etc.). Monit peut également surveiller des aspects plus généraux d'un serveur, tels que le processeur. charge, utilisation de la mémoire, statut du disque dur ou utilisation du disque.

Monit doit être configuré pour chaque service ou matériel que vous souhaitez surveiller et savoir comment réagir en cas de problème. Les options les plus utilisées sont de ne rien faire, d'envoyer un e-mail d'alerte ou de redémarrer le service.

Monit est excellent lorsque cela fonctionne, mais parfois, il ne parvient pas à démarrer, arrêter ou redémarrer un service et il n’ya pas beaucoup d’informations de diagnostic disponibles pour vous dire ce qui ne va pas. Cela signifie que vous ne savez pas si le problème vient de votre service ou de la configuration de Monit, qui s'exécute dans un environnement minimal semblable à celui de cron.

Les deux outils sont disponibles par défaut sur la plupart des distributions Linux.

Wes Oldenbeuving
la source
8

Je suis surpris que personne n'ait mentionné logwatch ou logcheck pour les serveurs linux - vous fait gagner une tonne de temps à lire les journaux !!

Brent
la source
Ces outils ne vous donneront pas vraiment de métriques et de lisibilité à long terme des tendances de votre infrastructure. Ils sont une belle addition mais je ne compterais pas uniquement sur eux. Afaik "logwatch" est un peu diabolique car il ne rapportera que les erreurs que vous racontez, par opposition à "logcheck" où vous indiquez à l'outil de bonnes choses et il signalera tout le reste.
serverhorror
7

J'utilise Pingdom pour surveiller mon serveur. Il m'envoie un SMS lorsque le serveur est inaccessible.

Jon Tackabury
la source
7

Notre projet utilise Ganglia pour nos 100 grappes de nœuds. L’une des raisons pour lesquelles nous l’utilisons est que c’est l’outil de surveillance fourni avec Rocks .

Il est important pour nous d'avoir une très faible surcharge sur chaque nœud afin que le plus de ressources possibles soient disponibles pour le calcul. Ganglia nous donne un bon aperçu du cluster et nous permet d’explorer des nœuds individuels si nécessaire. En plus de savoir ce qui se passe actuellement, nous pouvons avoir un bon aperçu de ce qui s’est passé au cours de la dernière heure, du jour, de la semaine, du mois et de l’année. Les graphiques de diverses statistiques sont basiques et fonctionnels.

Jon Ericson
la source
6

Tout dépend de ce que vous entendez par "moniteur"!

  • Est-ce (système ou service) disponible? Nous utilisons nagios .
  • Qu'est-ce que ça fait? Nous utilisons munin pour les serveurs linux et cactus pour à peu près tout le reste, même s'il est difficile de configurer parfois ...
  • Qu'a-t-il fait? Nous utilisons syslog-ng pour concentrer les syslog à un seul endroit, puis exécutons quotidiennement un script logcheck personnalisé pour envoyer des rapports par courrier électronique. Nous recherchons quelque chose de similaire pour les serveurs Windows.
David Mackintosh
la source
5

Graphite ( http://graphite.wikidot.com/ ) est un nouvel entrant sur le marché qui cherche à concurrencer Cacti et les solutions basées sur RRDTool .

RRDTool est remplacé par un magasin de support appelé Whisper. La documentation donne une assez bonne idée de la raison pour laquelle cela diffère et j'aime beaucoup l'interface de ligne de commande pour la représentation graphique ad hoc dans le cadre d'une enquête.

cclark
la source
4

Nous utilisons (et apprécions ) WhatsUp d’ Ipswitch pour notre réseau Windows relativement petit. Il est facile à installer et relativement facile à gérer. Il sait comment gérer les serveurs Windows ainsi que les outils standard.

Pour les grands réseaux, les réseaux non orientés Windows, ou les réseaux comportant de nombreux éléments variés, je recommande vivement OpenNMS . Le logiciel OpenNMS est gratuit et l'entreprise est plus que ravie de vendre des services de support et d'implémentation. Il arrive aussi qu’il soit géré par un ami très fort du collège!

tomjedrz
la source
4

Pour ceux qui n’aiment pas l’interface Web de Nagios, il existe NPC , un plugin pour Cacti qui rend l’interface utilisateur de Nagios disponible depuis Cacti, mais avec une meilleure apparence (ajax, etc.).

Il lit dans une base de données fournie par NDO2DB , ce qui est un excellent moyen de rendre votre infrastructure disponible à partir d'une base de données pour pouvoir être utilisée dans des scripts et d'autres outils.

Cawflands
la source
4

Nous utilisons actuellement PRTG de Paessler . C'est excellent. Aucun agent requis, excellente interface Web Ajax, journalisation historique, graphique, WMI, etc. Il existe une version gratuite de 10 capteurs, mais nous en avons obtenu quelques-uns pour la version entreprise. Argent bien dépensé.

PowerApp101
la source
4

Hobbit - c'est une version plus rapide et meilleure de Big Brother (qui semble être commercialement alarmante de nos jours).

http://hobbitmon.sourceforge.net/

dr-jan
la source
Nous utilisons également Hobbit, il est génial: il gère plus de 600 serveurs avec 10+ écrans chacun, la plupart d'entre eux étant mis à jour toutes les minutes
MarkR,
1
Hobbit s'appelle maintenant Xymon. hswn.dk/hobbiton/2008/11/msg00123.html
Clinton Blackmore Le
4

Si vous êtes pressé et que vous voulez un outil rapide pour surveiller votre serveur MS, utilisez ensuite l'Analyseur de performances pour Windows, configurez un journal des compteurs avec un modèle de surveillance personnalisé et un calendrier personnalisé (par exemple: collecter des données toutes les 5 heures). Ensuite, téléchargez les outils d’analyse des performances (Log Analysis) de PAL (Logpalarser) de Microsoft et de Codeplex ( http://pal.codeplex.com/ ) pour créer votre journal de compteur. PAL générera un excellent rapport documenté avec des liens vers des documents / outils de résolution de problèmes éventuels.

Paul
la source
3

J'utilise une combinaison de Solarwinds, d'onglets de performances du serveur VMware et de scripts personnalisés.

Le moniteur de performances réseau Solarwinds Orion est ce que j’utilise avec notre système Windows. administrateurs sur mes serveurs web. Des statistiques utiles sur les applications continuent de s'exécuter, mais il contient de bonnes informations sur les éléments de base au niveau de la boîte (disque, réseau, processeur).

Pour mes invités VMware, j'adore les onglets de performance.

Pour mes serveurs Sun, lorsque j'ai besoin de quelque chose qui n'est pas disponible dans Solarwinds (parce que notre administrateur ne l'a pas ajouté ou quoi), j'écris des scripts personnalisés (généralement en Perl) pour surveiller des éléments tels que la santé des miroirs, l'utilisation de swap, etc.

Je voudrais en savoir plus sur Solarwinds, mais comme il n'y a que 26 heures par jour (ou du moins mon patron le croit), je trouve que cela peut être un peu contraignant ...

Milner
la source
3

Nous utilisons OpsView , qui fonctionne au-dessus de Nagios. WebUI nous aide à déployer de nouvelles définitions de moniteur hôte sans avoir à autoriser l'accès SSH, fournit des vues publiques et enregistre des valeurs historiques. C'est pratique pour l'approvisionnement et la détermination de lignes de base appropriées.

Jldugger
la source
2

Désolé de le dire, mais j'ai fini par utiliser de nombreux scripts personnalisés. Bien que loin d'être idéal, je doute qu'il existe une solution plus commune.

Matt Lacey
la source
Il y aura toujours un besoin de scripts personnalisés!
Techboy
2

Nous avons écrit notre propre logiciel de surveillance. Notre code n'est pas aussi sophistiqué qu'un paquet commercial, mais nous n'avions pas besoin de beaucoup de fonctionnalités. Il était plus facile d’écrire le nôtre que d’enquêter sur d’autres packages et d’apprendre à les utiliser. Le code fait exactement ce que nous voulons et il est facile à étendre.

John D. Cook
la source
2
Je pense qu'il est important de réfléchir aux conséquences d'une telle décision. Écrire quelque chose à partir de zéro ne demande peut-être pas tant d'efforts, mais l'entretien en aval est un ours.
Adam
Je peux imaginer que la maintenance est un problème, mais ce n’est pas le cas pour nous, même si nous utilisons ce système depuis des années. Comme la base de code est petite et familière, il nous a été facile d’ajouter de nouvelles fonctionnalités selon les besoins. Le maintien d' une solution commerciale pourrait aussi être un problème au fil du temps, le greffage sur des morceaux de nouveaux fournisseurs lorsque le produit original ne fait pas tout ce dont vous avez besoin, etc.
John D. Cook