Dans /var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Ceci est le edac
journal, l'une des ce
erreurs de mémoire .
J'ai lu edac doc
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
et trouvez le canal d'erreur:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
et il devrait être mc0/csrow0/ch2
, comme le doc, le DIMM devrait être DIMM_C0
, et peut être trouvé par dmidecode
:
Mais je ne trouve pas ce module DIMM, donc je ne sais pas quelle mémoire a un problème:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Il y a 12 emplacements et 9 emplacements ont de la mémoire.
Alors, comment savoir quelle mémoire a un problème?
Supplément:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
Ubuntu 12.04
, Kernel is3.10.20
Réponses:
Votre module DIMM est probablement -
Locator: PROC 1 DIMM 5F
CPU # 0Channel # 2_DIMM # 0 signifie:
Éditer:
Lorsque vous posez des questions, plus d'informations sont toujours meilleures ... Avoir le fabricant et le modèle du serveur aurait simplifié cela:
Voici le schéma de mémoire des Quickspecs HP ProLiant DL180 G6 :
Ma suggestion que le module DIMM dans l'emplacement CPU # 1 est correct ... Mais c'est du matériel HP. Vous ne devriez pas avoir à deviner !!
Vous devez utiliser les agents de gestion HP, car ils peuvent alerter et fournir des détails spécifiques à la plate-forme sur la santé et l'état du matériel ...
la source
PROC1 DIMM 5F
n'ont pas de mémoire. Vous voulez donc dire que l'emplacement n'est pas vraiment confirmé? Dois-je ajouter un miroir deb deb et l'installerhpamscli
pour obtenir le bon module DIMM?hp-health
, etStatus
estN/A
identique à votre sortie collé.hplog -v
pour vérifier les entrées dans le journal HP IML.