Quelqu'un peut-il expliquer les «cas d'utilisation» pour les graphiques munin par défaut?

9

Lors de l'installation de munin, il active un ensemble de plugins par défaut (au moins sur ubuntu). Alternativement, vous pouvez simplement exécuter munin-node-configurepour déterminer quels plugins sont pris en charge sur votre système. La plupart de ces plugins tracent des données simples. Ma question n'est pas d'expliquer la nature des données (enfin ... peut-être pour certains) mais qu'est -ce que vous recherchez dans ces graphiques?

Il est facile d'installer munin et de voir des graphiques fantaisistes. Mais avoir les graphiques et ne pas pouvoir les "lire" les rend totalement inutiles.

Je vais lister les plugins standard qui sont activés par défaut sur mon système. Ce sera donc une longue liste. Par souci d'exhaustivité, je vais également énumérer les plugins que je pense comprendre et donner une brève explication à quoi je pense qu'il est utilisé. Veuillez corriger si je me trompe avec l'un d'eux.

Permettez-moi donc de diviser ces questions en trois parties:

  • Plugins où je ne comprends même pas les données
  • Plugins où je comprends les données mais ne sais pas ce que je dois rechercher
  • Plugins que je pense comprendre

Plugins où je ne comprends même pas les données

Ceux-ci peuvent contenir des questions qui ne visent pas nécessairement uniquement Munin. Ne pas comprendre les données signifie généralement une lacune dans les connaissances fondamentales sur les systèmes d'exploitation / le matériel ....;) N'hésitez pas à répondre par une réponse "giyf".

Ce sont des plugins où je ne peux que deviner ce qui se passe ... Je veux à peine regarder ces "devinettes" ...


  • E / S de disque par périphérique (IO / seconde) Qu'est-ce qu'un IO. Je sais que cela signifie entrée / sortie. Mais c'est aussi loin que ça va.
  • Latence du disque par périphérique (attente d'E / S moyenne)
    Pas la moindre idée de ce qu'est une «attente d'E / S» ...
  • Temps de service IO
    Celui-ci est un énorme gâchis, et il est presque impossible de voir quelque chose dans le graphique.

Plugins où je comprends les données mais ne sais pas ce que je dois rechercher

  • IOStat (blocs / seconde lecture / écriture)
    Je suppose que la chose à surveiller ici est les pointes? Ce qui signifierait que l'appareil est très utilisé?
  • Entropie disponible (octets)
    Je suppose que cela est important pour la génération de nombres aléatoires? Pourquoi devrais-je représenter cela graphiquement? Jusqu'à présent, la valeur a toujours été presque constante.
  • VMStat (exécution / processus de veille d'E / S)
    Quelle est la différence entre celui-ci et le graphique "processus"? Les deux montrent des processus en cours / en sommeil, tandis que le graphique "Processus" semble avoir plus de détails.
  • Débit du disque par périphérique (octets / seconde en lecture / écriture)
    Quelle est la différence entre celui-ci et le graphique "IOStat"?
  • utilisation de la table d'inode
    Que dois-je rechercher dans ce graphique?

Plugins que je pense comprendre

Je devine certaines choses ici ... corrigez-moi si je me trompe.

  • Utilisation du disque en pourcentage (pourcentage)
    Combien d'espace disque est utilisé / restant. Comme cela approche les 100%, vous devriez envisager de nettoyer ou d'étendre la partition. Ceci est extrêmement important pour la partition racine.
  • Débit du pare-feu (paquets / seconde)
    Le nombre de paquets passant par le pare-feu. Si cela augmente pendant une période plus longue, cela pourrait être le signe d'une attaque DOS (ou nous recevons simplement un gros fichier). Il peut également vous donner une idée des performances de votre pare-feu. Si cela se stabilise et que vous avez besoin de plus de "puissance", vous devriez envisager un équilibrage de charge. Si cela se stabilise et constate une corrélation avec la charge de votre processeur, cela peut également signifier que votre matériel n'est pas assez rapide. Les corrélations avec l'utilisation du disque peuvent pointer vers des cibles LOG excessives dans votre configuration FW.
  • Erreurs eth0 (paquets entrants / sortants)
    Erreurs réseau. Si cette valeur augmente, cela pourrait être un signe de matériel défectueux.
  • trafic eth0 (bits / seconde entrée / sortie)
    Trafic réseau brut. Cela devrait être en corrélation avec le débit du pare-feu.
  • nombre de threads
    Une valeur toujours croissante peut indiquer qu'un processus ne ferme pas correctement les threads. Enquêter!
  • processus
    Décomposition des processus actifs (y compris le sommeil). Un pic rapide ici pourrait indiquer une fourche-bombe. Une valeur lente, mais toujours croissante, peut indiquer qu'une application génère des sous-processus mais ne les ferme pas correctement. Enquêter en utilisant ps faux.
  • priorité de processus
    Ceci montre la distribution des priorités de processus. Le fait de n'avoir que des processus hautement prioritaires n'est pas très utile. Envisagez de dé-prioriser certains.
  • utilisation du processeur
    Assez simple. Si cela augmente, vous pouvez avoir une attaque en cours ou un processus monopolise le processeur. Si elle augmente lentement et approche le maximum dans les opérations normales, vous devriez envisager de mettre à niveau votre matériel (ou l'équilibrage de charge).
  • utilisation de la table de fichiers
    Nombre de fichiers ouverts activement. Si cela atteint le maximum, vous pouvez avoir un processus d'ouverture, mais pas de libération correcte des fichiers.
  • moyenne de charge
    Affiche une valeur résumée pour la charge du système. Doit correspondre à l'utilisation du processeur. L'augmentation des valeurs peut provenir d'un certain nombre de sources. Recherchez les corrélations avec d'autres graphiques.
  • utilisation de la mémoire
    Une représentation graphique de votre mémoire. Tant que vous avez beaucoup de tampons + cache + inutilisés, tout va bien.
  • swap in / out
    Affiche l'activité sur votre partition de swap. Cela devrait toujours être 0. Si vous voyez de l'activité à ce sujet, vous devez ajouter plus de mémoire à votre machine!
exhuma
la source
Grande question, facilement applicable à Cacti et à d'autres applications graphiques. Les graphiques ont souvent fière allure, mais il est assez difficile de comprendre ce qu'ils signifient et à quoi ressemble quelque chose qui nécessite une attention particulière.
dunxd
2
Pour le "Pourquoi est-ce que je représenterais cela? Jusqu'à présent, la valeur a toujours été presque constante." n'oubliez pas que la plupart des informations ne sont généralement utiles qu'en cas de problème.
Steve Schnepp

Réponses:

11

E / S de disque par périphérique (IO / seconde)

Avec les disques durs traditionnels, c'est un nombre très important. L'opération d'E / S est une opération de lecture ou d'écriture sur le disque. Avec les broches rotatives, vous pouvez vous déplacer de dizaines à peut-être 200 IOPS par seconde, selon la vitesse du disque et son mode d'utilisation.

Ce n'est pas tout: les systèmes d'exploitation modernes ont des planificateurs d'E / S qui essaient de fusionner plusieurs demandes d'E / S en une seule et d'accélérer les choses de cette façon. Les contrôleurs RAID, etc., effectuent également un réordonnancement intelligent des demandes d'E / S.

Latence du disque par périphérique (attente d'E / S moyenne)

Combien de temps a-t-il fallu pour exécuter la demande d'E / S sur un disque individuel pour réellement recevoir les données de celui-ci. Si cela oscille autour de quelques millisecondes, vous êtes OK, si c'est des dizaines de ms, alors vous commencez à voir votre sous-système de disque transpirer, si c'est des centaines de ms supplémentaires, vous êtes en grande difficulté, ou du moins vous avez un très, très système lent.

Temps de service IO

Fonctionnement global de votre sous-système de disques (contenant éventuellement de nombreux disques).

IOStat (blocs / seconde lecture / écriture)

Combien de blocs de disque ont été lus / écrits par seconde. Recherchez les pointes et aussi la moyenne. Si la moyenne commence à approcher le débit maximal de votre sous-système de disque, il est temps de planifier une mise à niveau des performances. En fait, planifiez de cette façon avant ce point.

Entropie disponible (octets)

Certaines applications souhaitent obtenir de "vraies" données aléatoires. Le noyau rassemble ce `` vrai '' hasard à partir de plusieurs sources, telles que l'activité du clavier et de la souris, un générateur de nombres aléatoires trouvé dans de nombreuses cartes mères, ou même à partir de fichiers vidéo / musicaux (video-entropyd et audio-entropyd peuvent le faire).

Si votre système manque d'entropie, les applications qui souhaitent que ces données se bloquent jusqu'à ce qu'elles obtiennent leurs données. Personnellement, dans le passé, j'ai vu cela se produire avec le démon Cyrus IMAP et son service POP3; il a généré une longue chaîne aléatoire avant chaque connexion, et sur un serveur occupé qui a consommé le pool d'entropie très rapidement.

Une façon de se débarrasser de ce problème est de changer les applications pour utiliser uniquement des données semi-aléatoires (/ dev / urandom), mais cela ne fait plus partie de ce sujet.

VMStat (exécution / processus de veille d'E / S)

Je n'y avais pas pensé auparavant, mais je pense que cela vous renseigne sur les statistiques d'E / S par processus, ou principalement si elles exécutent des E / S ou non, et si cette E / S bloque l'activité d'E / S ou ne pas.

Débit de disque par périphérique (octets / seconde en lecture / écriture)

Il s'agit uniquement d' octets lus / écrits par seconde, et le plus souvent, il s'agit d'une forme plus lisible par l'homme que les blocs , qui peuvent varier. La taille des blocs peut différer en raison des disques utilisés, du système de fichiers (et de ses paramètres) utilisés, etc. Parfois, la taille du bloc peut être de 512 octets, d'autres fois 4096 octets, parfois autre chose.

utilisation de la table d'inode

Avec des systèmes de fichiers ayant des inodes dynamiques (tels que XFS), rien. Avec les systèmes de fichiers ayant des cartes d'inodes statiques (comme ext3), tout. Si vous avez une combinaison d'inodes statiques, un énorme système de fichiers et un grand nombre de répertoires et de petits fichiers, vous pouvez rencontrer une situation où vous ne pouvez pas créer plus de fichiers sur cette partition, même si en théorie il y aurait beaucoup d'espace libre. Pas d'inodes libres == mauvais.

Janne Pikkarainen
la source
compte tenu de l'utilisation de l'inode. J'utilise actuellement ext4, et les max-indodes et open-inodes dans ce graphique sont extrêmement proches (open: taille de la table 31.11k: 32.12k). Ce qui me laisserait environ 1 000 inodes restants. Comme le système est fraîchement installé, je ne pense pas que cela indique un problème. Ext4 alloue-t-il dynamiquement les inodes? Je n'ai rien trouvé à ce sujet sur google ...
exhuma
Voir df -i, il vous indique l'utilisation actuelle des inodes. ext4 a corrigé les inodes, par exemple mes rapports Fedora 16 pour ma partition racinerootfs 3276800 238083 3038717 8% /
Janne Pikkarainen
Hmmm ... intéressant. Cela suggère que le graphique Munin n'est pas correct. Je ne me suis pas non plus rendu compte que le graphique Munin ne montre qu'une seule valeur. Ne devrait-il pas afficher une valeur par système de fichiers pour être utile? Voir aussi la df -icapture d'écran ( i44.tinypic.com/oixkiq.png ) vs le munin-graph ( i39.tinypic.com/dxl64z.png )
exhuma
... La valeur dans le graphique (25,57 k) n'est en fait pas du tout visible dans la dfsortie.
exhuma
Après une enquête plus approfondie, je vois que le plugin munin open_inodesprend la valeur de /proc/sys/fs/inode-nr. C'est un noyau, et non une valeur de système de fichiers. Un peu plus de recherche sur Google m'a indiqué ceci: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 À partir de ce document, je suppose que la limite se trouve dans inode-max. Mais ce fichier n'existe pas sur mon système. Est-il possible que cela ne soit plus pertinent sur les noyaux plus récents? Cela me permettrait de supprimer ce graphique de mon instance munin!
exhuma