Comment surveillez-vous un serveur de surveillance?

14

Nous exécutons donc Groundworks (avec Nagios) sur CentOS pour surveiller nos différents serveurs et processus. Je l'ai configuré pour envoyer automatiquement des e-mails et des SMS lorsque les choses atteignent un état AVERTISSEMENT ou CRITIQUE. Normalement, cela fonctionne parfaitement. Cependant, deux fois, nous avons eu des problèmes avec Postfix sur ce serveur où Postfix décide d'arrêter d'envoyer des e-mails. La dernière fois a duré 4 jours car aucun de nous ne l'a remarqué.

Cela m'amène à une question importante: comment suis-je censé surveiller mon serveur de surveillance?

bio veggie
la source
5
Quis custodiet ipsos custodes?
James L
Il h. Juvénal. Joliment joué.
Organicveggie
Qui regarde les veilleurs? : D
Florent Courtay
1
@organicveggie, Un serveur de surveillance est aussi un serveur ... Quels problèmes rencontriez-vous en utilisant un serveur de surveillance pour surveiller un serveur de surveillance?
Pacerier

Réponses:

12

Avec un deuxième serveur de surveillance, bien sûr. Le second peut être beaucoup plus simple, car il suffit de surveiller le premier. Et il doit être surveillé par le système de surveillance principal à son tour, bien sûr.

Si votre groupe fait partie d'une organisation plus grande avec des infrastructures informatiques distinctes, vous pourrez peut-être prendre des dispositions pour que le service de surveillance d'un autre groupe surveille le vôtre.

Vous pouvez également vous assurer que le serveur envoie un message "ça va" tous les jours et prendre l'habitude de le chercher. (Cela n'est efficace que si vous n'êtes pas déjà submergé de messages de routine, bien sûr.)

mattdm
la source
14

D'autres personnes suggèrent d'envoyer des messages réguliers disant que tout va bien, mais personnellement, je ne suis pas d'accord avec cela. La surveillance doit être silencieuse, sauf en cas de problème, et ne doit jamais s'appuyer sur un utilisateur qui remarque que quelque chose ne va pas, comme "Oh, je n'ai pas reçu cet e-mail quotidien depuis quelques jours." Surtout si plusieurs personnes répondent aux alertes, chacune peut penser que l'autre a déjà supprimé le message quotidien "Je vais bien".

Nous avons un service externe (dont il existe des centaines, mais nous utilisons wormly ) pour faire des vérifications HTTP de notre serveur de surveillance pour vous assurer qu'il est et peut accéder à Internet. C'est notre principale préoccupation pour le surveiller. Ensuite, notre serveur Nagios surveille tous les serveurs Nagios de nos clients.

Mais, vous soulevez un bon point. Nous devrions probablement ajouter une URL HTTP qui vérifie la file d'attente de Postfix et si elle indique le nombre inhabituel de messages, ce qui signifie sans doute qu'il a tout dans la file d' attente, puis soulevez une alerte. Une autre option serait d'utiliser différentes méthodes pour les alertes, par exemple un agent de livraison SMS non SMTP ainsi que SMTP que nous utilisons actuellement.

Dans notre cas, cependant, je ne me souviens pas que nous ayons déjà vu le serveur de messagerie mourir. Bien sûr, tout ce que le serveur de messagerie est utilisé envoie des alertes Nagios, donc la configuration est très simple et ne change presque jamais.

Sean Reifschneider
la source
2
Les messages OK réguliers ne sont pas très utiles: vous ne pouvez pas conditionner de manière fiable une personne à effectuer une action en l'absence de stimulus.
Tim Williscroft
@Tim: Désolé, mais "l'absence de stimulus" ne décrit pas la situation où un e-mail prévu n'est pas reçu. Dans un tel cas, je pense que je serais "stimulé" à rechercher pourquoi le message n'est pas arrivé. Mais c'est peut-être juste moi. :)
Steven lundi
1
Je pense que j'écris en utilisant des termes psychologiques qui ne signifient pas ce que vous pensez qu'ils signifient. La psychologie comportementale et la psychologie aéronautique ont beaucoup à dire aux ingénieurs système. Le domaine a été fortement développé pendant la Seconde Guerre mondiale pour permettre aux équipages âgés de 18 à 20 ans de piloter des avions à la pointe de la technologie sans s'écraser, et d'avoir encore de l'attention pour leurs vraies tâches militaires. C'est pourquoi les avions ont un voyant d'avertissement principal, pas un voyant "tout va bien". TLDR (je ne pense pas que ce mot signifie ce que vous pensez qu'il signifie)
Tim Williscroft
1
Je suis très fermement d'avis que les systèmes ne devraient pas faire de bruit à moins qu'il y ait quelque chose qui nécessite l'attention d'un humain. Nous avons une attention limitée, et les ordinateurs peuvent facilement nous submerger avec de petits blips comme "Je suis vivant!". De plus, les événements qui n'indiquent pas de problèmes mettent les gens dans l'esprit d'ignorer les choses. Je travaille très dur pour m'assurer que quand quelque chose arrive à un humain, c'est quelque chose qu'il a vraiment besoin de voir. Je travaille avec quelqu'un qui a toutes sortes de journaux qui lui parviennent chaque jour qu'il examine. Bien sûr, il est tellement occupé qu'il ne peut pas sortir pour déjeuner ...
Sean Reifschneider
1
Je conviens que les services ne devraient pas envoyer trop de messages ou que les gens commencent rapidement à les ignorer. Cependant, si le système de surveillance est correctement configuré, vous ne devriez pas recevoir beaucoup de messages. Bien sûr, nous avons une politique de reconnaissance des alertes de Groundworks / Nagios, qui arrête efficacement les messages pendant un certain temps. S'il s'agit d'une panne à long terme, nous désactivons la surveillance du système ou du service. Par conséquent, un message quotidien "I'm Alive" est en fait assez raisonnable.
Organicveggie
5

Évidemment, votre postfix devrait également être surveillé, mais c'est un autre sujet;)

J'utilise le plugin Nagios Checker pour Firefox , il fonctionne toujours dans une barre d'état sur n'importe quel ordinateur que j'utilise régulièrement.

De plus, j'ai un script personnalisé sur l'hôte extérieur qui envoie un ping à l'hôte nagios et envoie des SMS s'il ne répond pas aux pings.

Jusqu'à présent (plus de 5 ans), cela a fonctionné correctement (frappez sur le bois).

Aleksandar Ivanisevic
la source
2

Pour la surveillance du serveur de surveillance (nagios dans notre cas), le plan gratuit ou de base de Pingdom ou alertfox fonctionne très bien.

BXAtWork
la source
Bonnes suggestions. Mais dans ce cas, notre serveur de surveillance n'est pas accessible en dehors du pare-feu. Donc, Pingdom et Alertfox ne fonctionnent pas vraiment pour nous.
Organicveggie
1

Première chose: laissez-le envoyer des messages "Je suis vivant" une ou deux fois par jour. Deuxièmement, j'exécute une vieille machine juste à cet effet, qui a un autre modem GSM, un petit onduleur, etc. et une connexion dédiée (directe) au serveur de surveillance principal. Celui-ci aide également au point trois: assurez-vous de vérifier régulièrement l'état de vos systèmes de surveillance. Le petit système de surveillance auxiliaire affiche en permanence la page d'état du système principal dans mon bureau.

Sven
la source
1

Si votre serveur de surveillance est accessible depuis Internet, vous devez le faire surveiller par un fournisseur externe (par exemple, websitepulse et. Al.).

Texas
la source