Comment puis-je être averti lorsqu'une machine Linux équipée de mémoire ECC reconnaît une défaillance de mémoire? Je suis intéressé par les erreurs corrigibles et non corrigibles.
- si un message est écrit dans dmesg / le syslog, c'est déjà très bien, mais j'aimerais savoir quoi chercher
- l'installation de démons supplémentaires (comme smartmontools pour les disques durs) est acceptable
- La surveillance de Nagios / Icinga serait une autre voie à suivre
- toutes les machines à surveiller n'ont pas IPMI
Les systèmes d'intérêt ont des cartes Supermicro (X9SCM-F), concernant un microserveur HP N54L, je suis juste curieux, mais je m'en fiche trop. Tous les systèmes exécutent Debian ou Ubuntu Linux.
mcelog
tout en surveillant le syslog semble être la voie à suivre.Réponses:
Le noyau Linux prend en charge les fonctionnalités de détection et de correction d'erreurs ( EDAC ) de certains chipsets. Sur un système pris en charge avec ECC, l'état de votre contrôleur de mémoire est accessible via sysfs:
L'arborescence des répertoires sous ces emplacements doit correspondre à votre matériel, par exemple:
Selon votre matériel, vous devrez peut-être charger explicitement le bon pilote edac, cf.:
Le
edac-utils
package fournit une interface en ligne de commande et une bibliothèque pour accéder à ces données, par exemple:Vous pouvez configurer une sorte de tâche cron qui appelle périodiquement
eac-util
et alimente les résultats dans votre système de surveillance, où vous pouvez ensuite configurer certaines notifications.En plus de cela, la course
mcelog
est généralement une bonne idée. Dépend du système, mais des erreurs ECC non corrigibles / corrigibles sont également signalées comme exception de vérification de la machine ( MCE ). Je veux dire, même de brèves périodes de limitation du processeur en raison d'une température plus élevée sont signalées comme MCE.la source
mcelog
surveillera le contrôleur de mémoire et signalera les événements d'erreur de mémoire à syslog et, dans certaines configurations, peut déconnecter les pages de mauvaise mémoire . Ceci, bien sûr, s'ajoute à son utilisation habituelle pour surveiller les exceptions de vérification de la machine et diverses autres erreurs matérielles.La plupart des distributions Linux ont un service configuré pour l'exécuter en tant que démon, par exemple pour EL 6:
la source
Cela dépend du matériel de votre serveur. Une boîte blanche ou un système Supermicro traitera cela différemment d'un Dell, HP ou IBM ...
L'une des caractéristiques à valeur ajoutée des serveurs haut de gamme est qu'il existe un niveau d'intégration matériel / système d'exploitation. Des serveurs plus agréables indiqueront ce que vous recherchez dans le cadre des agents de gestion et / ou de la solution de gestion hors bande (ILO, DRAC, IPMI).
Vous devez utiliser les outils natifs de votre plate-forme matérielle.
Extrait d'un serveur HP ProLiant exécutant Linux et les agents de gestion HP:
et
ou plus grave
ou le pire ... Ignorer une erreur pendant 6 jours jusqu'à ce que le serveur plante en raison d'une mauvaise RAM
Ceux-ci ont été enregistrés, ainsi que des pièges SNMP et des e-mails ont été envoyés.
De manière générale, vous verrez les exceptions de vérification de la machine dans le tampon d'anneau du noyau, vous pouvez donc vérifier
dmesg
ou exécuter mcelog . Dans mes expériences avec les engins Supermicro sans IPMI, cela n'a pas tout attrapé, et j'ai toujours eu des erreurs de RAM glissant à travers les fissures et provoquant des pannes. Malheureusement, cela a conduit à des politiques de rodage de la RAM archaïques avant les déploiements du système.la source