Charge élevée sur un serveur nagios - Combien de vérifications de service pour un serveur nagios sont trop nombreuses?

9

J'ai un serveur nagios exécutant Ubuntu avec un processeur Intel à 2,0 GHz, une matrice RAID10 et 400 Mo de RAM. Il surveille un total de 42 services sur 8 hôtes, dont la plupart sont vérifiés en utilisant le plugin check_http même 5 minutes, certains toutes les minutes. Récemment, la charge sur le serveur nagios a dépassé 4, souvent jusqu'à 6. Le serveur exécute également des cactus, collectant des statistiques toutes les minutes pour 6 hôtes.

Je me demande, combien de services un matériel comme celui-ci devrait-il pouvoir gérer? La charge est-elle si élevée parce que je repousse les limites du matériel, ou ce matériel devrait-il être capable de gérer 42 contrôles de service plus des cactus? Si le matériel est inadéquat, dois-je chercher à ajouter plus de RAM, plus de cœurs ou des cœurs plus rapides? Quels contrôles de matériel / service les autres exécutent-ils?

Josh
la source
À quoi ressemble l'utilisation du ram en ce moment sur le serveur? De plus, à quoi ressemble l'utilisation du processeur? Si cette valeur est élevée, quels processus sont liés?
3dinfluence
Avez-vous résolu le problème? Nous rencontrons le même problème. La charge moyenne est de 12 ..
John

Réponses:

7

Vous devez déterminer où se trouve votre goulot d'étranglement ...

J'exécute un moniteur nagios qui vérifie plus de 400 hôtes avec des vérifications http, ping et ssh. (ainsi que de nombreux autres contrôles passifs et nscd)

C'est sur un serveur 2xQuadCore avec 4 disques SAS en RAID10.

Je soupçonne que vous rencontrez des conflits d'E / S, car écrire sur beaucoup de disques est très inefficace.

Vous devez déterminer quel processus utilise vos ressources. (cactus, nagios ou autre chose)

Pour la vérification des IO, j'aime iotop. Installez iotop (le package 9.04 fonctionne sur 8.04)

Mais sinon, top devrait également vous aider à trouver votre porc de charge.

Les cactus une fois par minute sont assez agressifs. (Je lance le mien à 5m d'intervalle)

Une approche dont j'ai entendu parler pour les conflits d'écriture rrd consiste à placer vos magasins rrd sur un ramdisk / tmpfs. (assurez-vous de rsync que de temps en temps au stockage persistant)

Bonne chance.

Joel K
la source
Merci. Je vais y jeter un œil. Ce sont probablement des cactus qui génèrent la charge, et je vais voir s'il existe un moyen de déplacer les rrds vers tmpfs. Ou ajoutez simplement plus de RAM pour que le serveur puisse mettre en mémoire tampon les rrds. Je crains que si je fais des cactus toutes les 5 minutes, il pourrait y avoir des pics de charge qui ne durent que 1 ou 2 minutes, ce qui me manquerait complètement ...
Josh
6

À moins que ce ne soient les cactus qui génèrent la majeure partie de la charge, vous devriez pouvoir exécuter beaucoup plus de contrôles que cela sur votre matériel.

J'exécute nagios sur une machine virtuelle FreeBSD fonctionnant sur Microsoft Virtual Server sur un vieux PC lent (Pentium 3 1 GHz avec un disque PATA lent). La machine virtuelle n'a que 128 Mo de RAM et les performances sont désastreuses.

Cependant, la moyenne de charge est d'environ 0,2, exécutant 158 ​​vérifications sur 42 hôtes.

hmallett
la source
Merci. J'aimerais pouvoir accepter les deux réponses! Vous avez été très utile, cela m'indique que les cactus sont probablement le coupable.
Josh
2

Sur un ancien PIII avec 256 Mo de RAM, je surveille activement environ 230 services différents. La même machine exécute également MRTG et HylaFAX pour tous nos fax entrants et le fait très confortablement.

John Gardeniers
la source
Des informations très utiles. Cela m'indique que les cactus sont probablement le coupable, pas les nagios. Merci!
Josh
1

Vous devriez pouvoir exécuter une cargaison de chèques nagios avec ce matériel. Nous exécutons une configuration similaire avec environ 70 contrôles et Nagiosgraph - la principale différence est l'ajout de RAM (c'est pas cher, donc je ferais monter la boîte à 2 Go).

Essayez de lancer top ou ps -aux pour voir si le CPU est surchargé, mais j'en doute. Vous pouvez également vérifier les documents de parallélisation nagios pour voir si votre installation tente d'exécuter trop de contrôles à la fois plutôt que de les sérialiser.

hurfdurf
la source