En ce moment, j'utilise ces valeurs:
# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent
# 4 cores
# time 5 minutes 10 minutes 15 minutes
# warning: 90% 70% 50%
# critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Mais ces valeurs sont juste choisies presque au hasard.
Quelqu'un a-t-il des valeurs testées?
monitoring
nagios
Sandra
la source
la source
standard
outested
valeur. Cela dépend de la charge de travail attendue de votre serveur. Si vous vous attendez à une charge élevée, vous devez augmenter les valeurs. Sinon, votre serveur apparaîtra toujours dans un état critique.Réponses:
Le chargement Linux est en fait simple. Chacun des nombres moyens de charge est la somme de toutes les charges moyennes du cœur. C'est à dire.
où
0 < avg load < infinity
.Donc, si une charge est de 1 sur un serveur à 4 cœurs, cela signifie que chaque cœur est utilisé à 25% ou qu'un cœur est à 100% sous charge. Une charge de 4 signifie que les 4 coeurs sont sous une charge de 100%. Une charge> 4 signifie que le serveur a besoin de plus de cœurs.
check_load
ont maintenantce qui signifie que lorsqu'il est utilisé, vous pouvez considérer votre serveur comme ayant un seul cœur et donc écrire directement les pourcentages sans penser au nombre de cœurs. Avec
-r
l'avertissement et les intervalles critiques devient0 <= load avg <= 1
. C'est à dire. vous n'avez pas à modifier vos valeurs d'avertissement et critiques d'un serveur à l'autre.OP ont 5,10,15 pour les intervalles. C'est faux. C'est 1,5,15.
la source
Bien que ce soit un ancien article, répondre maintenant parce que je savais que les valeurs de seuil de check_load sont des maux de tête pour les débutants ..;)
Une alerte d'avertissement, si le processeur est à 70% pendant 5 minutes, 60% pendant 10 minutes, 50% pendant 15 minutes. Une alerte critique, si le processeur est à 90% pendant 5 minutes, 80% pendant 10 minutes, 70% pendant 15 minutes.
Toutes mes découvertes sur la charge CPU:
Que signifie "la charge": Wikipedia dit:
Tous les systèmes Unix et Unix-like génèrent une métrique de trois nombres de "moyenne de charge" dans le noyau. Les utilisateurs peuvent facilement interroger le résultat actuel à partir d'un shell Unix en exécutant la commande uptime:
De la moyenne de charge de sortie ci-dessus:
0.06, 0.11, 0.09
signifie (sur un système à processeur unique):.
La moyenne de charge ci-dessus
1.73 0.50 7.98
sur un système à processeur unique est la suivante:Calcul de la valeur seuil de Nagios:
Pour la configuration de Nagios CPU Load, qui comprend un avertissement et un élément critique:
y = c * p / 100
Où:
y = nagios value
c = number of cores
p = wanted load procent
pour un système à 4 cœurs:
Pour un système monocœur:
y = p / 100
Où:
y = nagios value
p = wanted load procent
Un grand livre blanc sur l'analyse de la charge du processeur par Dr. Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf Dans cet article en ligne, Dr. Gunther fouille dans le noyau UNIX pour découvrir comment les moyennes de charge (la Les «triplets LA») sont calculés et dans quelle mesure ils sont appropriés comme mesures de planification de la capacité.
la source
À moins que les serveurs en question aient une charge de travail asynchrone où la profondeur de la file d'attente est la métrique de service importante à gérer, sa valeur honnête ne vaut même pas la peine d'être surveillée en moyenne. C'est juste une distraction des métriques qui importent comme le temps de service (temps de service et temps de service).
la source
Un bon complément aussi Nagios est un outil comme Munin ou Cacti, ils vont représenter graphiquement les différents types de charge de travail que connaît votre serveur. Que ce soit load_average, l'utilisation du processeur, le disque io ou autre chose.
En utilisant ces informations, il est plus facile de définir de bonnes valeurs de seuil dans Nagios.
la source
Savez-vous à quelle charge moyenne les performances de votre système sont affectées? Nous avions des serveurs à mon dernier emploi qui se situaient constamment à une charge moyenne de 35 à 40, mais étaient toujours réactifs. C'est une mesure pour laquelle vous devez faire un peu de travail de détective pour obtenir des chiffres précis.
Vous souhaiterez peut-être plutôt mesurer d'autres mesures sur le système, comme le temps de connexion moyen pour SSH ou http; cela pourrait être un meilleur indicateur de la charge de votre système.
la source
Pour étendre la réponse d'Invent Sekar: Lorsque vous utilisez check_load et pourcentages, je pense que vous aurez besoin de l'argument de ligne de commande "-r" avec les autres.
Par exemple:
la source