Comment puis-je trouver quelle mémoire a une erreur CE?

12

Dans /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Ceci est le edacjournal, l'une des ceerreurs de mémoire .

J'ai lu edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

et trouvez le canal d'erreur:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

et il devrait être mc0/csrow0/ch2, comme le doc, le DIMM devrait être DIMM_C0, et peut être trouvé par dmidecode:

Mais je ne trouve pas ce module DIMM, donc je ne sais pas quelle mémoire a un problème:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Il y a 12 emplacements et 9 emplacements ont de la mémoire.

Alors, comment savoir quelle mémoire a un problème?


Supplément:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6
Tanky Woo
la source
De quel type de serveur s'agit-il? Fabricant et modèle du serveur.
ewwhite
@ewwhite, salut, j'ai mis à jour la question avec les informations système.
Tanky Woo
Quel système d'exploitation utilisez-vous?
ewwhite
@ewwhite OS is Ubuntu 12.04, Kernel is3.10.20
Tanky Woo
Oh, je suis désolé ... Ubuntu n'est pas vraiment pris en charge sur ce matériel , donc vous perdez la capacité de le surveiller correctement en n'utilisant pas RHEL / CentOS / Debian / SuSE ...
ewwhite

Réponses:

8

Votre module DIMM est probablement - Locator: PROC 1 DIMM 5F

CPU # 0Channel # 2_DIMM # ​​0 signifie:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Éditer:

Lorsque vous posez des questions, plus d'informations sont toujours meilleures ... Avoir le fabricant et le modèle du serveur aurait simplifié cela:

Voici le schéma de mémoire des Quickspecs HP ProLiant DL180 G6 :

entrez la description de l'image ici

Ma suggestion que le module DIMM dans l'emplacement CPU # 1 est correct ... Mais c'est du matériel HP. Vous ne devriez pas avoir à deviner !!

Vous devez utiliser les agents de gestion HP, car ils peuvent alerter et fournir des détails spécifiques à la plate-forme sur la santé et l'état du matériel ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A
ewwhite
la source
merci, y a-t-il un document publié?
Tanky Woo
@TankyWoo Oui, voir ci-dessus.
ewwhite
PROC1 DIMM 5Fn'ont pas de mémoire. Vous voulez donc dire que l'emplacement n'est pas vraiment confirmé? Dois-je ajouter un miroir deb deb et l'installer hpamsclipour obtenir le bon module DIMM?
Tanky Woo
J'ai installer hp-health, et Statusest N/Aidentique à votre sortie collé.
Tanky Woo
Exécutez hplog -vpour vérifier les entrées dans le journal HP IML.
ewwhite