Surveillance du serveur de production [fermé]

18

Nous avons 3 serveurs dédiés, répartis en plusieurs VPS utilisant openVZ. Nous utilisons munin pour surveiller le VPS avec les sites de production et surveillons l'un des VPS pour nous assurer qu'il redémarre le service en cas d'échec.

La chose est que nous avons besoin d'un bien meilleur moyen de surveiller tous nos serveurs, puisque nous avons jusqu'à 14 VPS, nous aimerions avoir un hub central où nous pourrions voir non seulement les données collectées par munin, mais aussi quelques statistiques supplémentaires sur les réseaux et les performances de nos services.

Certaines de nos exigences:
- Notification SMS en cas d'échec (possibilité de configurer certaines vérifications personnalisées)
- Analyseur de journal pour apache error_log et d'autres.
- Doit être central (c'est-à-dire un serveur et plusieurs nœuds collectant les données).
- Ne doit pas être facile à installer mais facile à entretenir.
- Besoin d'être libre

J'ai été pointé du doigt sur nagios et splunk, qu'en pensez-vous? Merci,

Adam Benayoun
la source

Réponses:

17

J'ai une configuration similaire, sauf avec Xen en place. J'ai été très satisfait d'une combinaison de:

  • Nagios pour les alertes (en utilisant PNP pour certains graphiques légers et Nagviz pour un tableau de bord d'état de service)
  • Ganglions pour la représentation graphique historique des systèmes
  • OSSEC en tant que HIDS et tout aussi important en tant que collecteur pour une journalisation centralisée
    • sidenote: Il existe un plugin Splunk pour OSSEC qui intègre très bien ces deux outils , j'attends qu'ils le transfèrent sur Splunk v4.
  • Splunk Enfin, une fois que quelques plugins Splunk seront migrés, nous prévoyons d'utiliser Splunk avec un pré-filtrage des journaux (pour éviter de dépasser le plafond des éditions gratuites)

J'espère que le partage de notre configuration de surveillance vous aidera :-)

Voici quelques liens utiles:

http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html

https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/

http://www.ossec.net/main/splunk-ossec-integration

mise à jour:

J'ai oublié de mentionner que nous utilisons également la configuration de configuration Matt Simmons Nagios, que vous trouverez ici http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/

Cette disposition a rendu notre configuration Nagios sensée et beaucoup plus facile à entretenir (merci Matt!)

faultyserver
la source
2
+1 pour OSSEC + splunk. ils travaillent très bien ensemble.
sucuri
5

J'ai eu beaucoup de succès avec Zabbix , il satisfait tous vos points dans un seul paquet.

texte alternatif
(la source: zabbix.com )

La partie la plus difficile sera d'obtenir la surveillance du journal Apache, mais Zabbix est extensible, vous pouvez donc utiliser LogWatch ou un autre script Perl pour récupérer des données pour vous.

Dave Drager
la source
2

J'aime OpManager, et c'est gratuit jusqu'à un certain nombre de nœuds. Fait tout ce qui précède et est assez facile à installer et à entretenir.

PouletMilkBomb
la source
1

Nagios devrait être un bon choix. Tout d'abord - il est modulaire et répond à peu près à toutes vos attentes. En plus, il a reçu de belles récompenses .

EDIT: N'oubliez pas de vérifier cette réponse .

gardien
la source