Nous exécutons donc Groundworks (avec Nagios) sur CentOS pour surveiller nos différents serveurs et processus. Je l'ai configuré pour envoyer automatiquement des e-mails et des SMS lorsque les choses atteignent un état AVERTISSEMENT ou CRITIQUE. Normalement, cela fonctionne parfaitement. Cependant, deux fois, nous avons eu des problèmes avec Postfix sur ce serveur où Postfix décide d'arrêter d'envoyer des e-mails. La dernière fois a duré 4 jours car aucun de nous ne l'a remarqué.
Cela m'amène à une question importante: comment suis-je censé surveiller mon serveur de surveillance?
Réponses:
Avec un deuxième serveur de surveillance, bien sûr. Le second peut être beaucoup plus simple, car il suffit de surveiller le premier. Et il doit être surveillé par le système de surveillance principal à son tour, bien sûr.
Si votre groupe fait partie d'une organisation plus grande avec des infrastructures informatiques distinctes, vous pourrez peut-être prendre des dispositions pour que le service de surveillance d'un autre groupe surveille le vôtre.
Vous pouvez également vous assurer que le serveur envoie un message "ça va" tous les jours et prendre l'habitude de le chercher. (Cela n'est efficace que si vous n'êtes pas déjà submergé de messages de routine, bien sûr.)
la source
D'autres personnes suggèrent d'envoyer des messages réguliers disant que tout va bien, mais personnellement, je ne suis pas d'accord avec cela. La surveillance doit être silencieuse, sauf en cas de problème, et ne doit jamais s'appuyer sur un utilisateur qui remarque que quelque chose ne va pas, comme "Oh, je n'ai pas reçu cet e-mail quotidien depuis quelques jours." Surtout si plusieurs personnes répondent aux alertes, chacune peut penser que l'autre a déjà supprimé le message quotidien "Je vais bien".
Nous avons un service externe (dont il existe des centaines, mais nous utilisons wormly ) pour faire des vérifications HTTP de notre serveur de surveillance pour vous assurer qu'il est et peut accéder à Internet. C'est notre principale préoccupation pour le surveiller. Ensuite, notre serveur Nagios surveille tous les serveurs Nagios de nos clients.
Mais, vous soulevez un bon point. Nous devrions probablement ajouter une URL HTTP qui vérifie la file d'attente de Postfix et si elle indique le nombre inhabituel de messages, ce qui signifie sans doute qu'il a tout dans la file d' attente, puis soulevez une alerte. Une autre option serait d'utiliser différentes méthodes pour les alertes, par exemple un agent de livraison SMS non SMTP ainsi que SMTP que nous utilisons actuellement.
Dans notre cas, cependant, je ne me souviens pas que nous ayons déjà vu le serveur de messagerie mourir. Bien sûr, tout ce que le serveur de messagerie est utilisé envoie des alertes Nagios, donc la configuration est très simple et ne change presque jamais.
la source
Évidemment, votre postfix devrait également être surveillé, mais c'est un autre sujet;)
J'utilise le plugin Nagios Checker pour Firefox , il fonctionne toujours dans une barre d'état sur n'importe quel ordinateur que j'utilise régulièrement.
De plus, j'ai un script personnalisé sur l'hôte extérieur qui envoie un ping à l'hôte nagios et envoie des SMS s'il ne répond pas aux pings.
Jusqu'à présent (plus de 5 ans), cela a fonctionné correctement (frappez sur le bois).
la source
Pour la surveillance du serveur de surveillance (nagios dans notre cas), le plan gratuit ou de base de Pingdom ou alertfox fonctionne très bien.
la source
Première chose: laissez-le envoyer des messages "Je suis vivant" une ou deux fois par jour. Deuxièmement, j'exécute une vieille machine juste à cet effet, qui a un autre modem GSM, un petit onduleur, etc. et une connexion dédiée (directe) au serveur de surveillance principal. Celui-ci aide également au point trois: assurez-vous de vérifier régulièrement l'état de vos systèmes de surveillance. Le petit système de surveillance auxiliaire affiche en permanence la page d'état du système principal dans mon bureau.
la source
Si votre serveur de surveillance est accessible depuis Internet, vous devez le faire surveiller par un fournisseur externe (par exemple, websitepulse et. Al.).
la source