Comment trouver un module de mémoire défectueux à partir du message MCE?

11

J'essaye de comprendre le message MCE pour trouver quel module de mémoire est mauvais sur un serveur. Ce message apparaît dans /var/log/kern.logun serveur qui se fige deux fois aujourd'hui.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Je soupçonne un mauvais module de mémoire. Le serveur est un 2x Xeon E5-2650 avec des modules de mémoire 8x8Go (8 emplacements de mémoire pour chaque processeur)

Voici la population de modules de mémoire de lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Comme vous pouvez le constater, il n'y a pas de module mémoire sur la banque # 5 qui. Ma question est donc: êtes-vous d'accord pour dire que ce message concerne une défaillance de la mémoire? Et si oui, comment trouver le module à remplacer?

Matg
la source

Réponses:

10

Ces erreurs proviennent de la classe EDAC - Error Detection And Correction edac_mc de l'appareil.

Les événements que vous recevez sont des événements CE (erreurs corrigibles). Ce sont des indications qu'un module DIMM commence à échouer.

EDAC n'a signalé aucune information spécifique sur la ligne de mémoire ou le canal auquel il fait référence, il est donc difficile de dire laquelle remplacer jusqu'à ce que celle-ci échoue.

mais jetez un oeil à: / sys / devices / system / edac / mc / mc * et cela pourrait vous en dire un peu plus sur la ligne / dimm qui pourrait être la défectueuse.

Par exemple

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

regardez le champ ce_count.

sur une note latérale:

Le système peut toujours continuer à fonctionner, mais avec moins de sécurité. La maintenance préventive et le remplacement proactif des modules DIMM de mémoire présentant des CE peuvent réduire la probabilité des événements UE (erreur non corrigibles) redoutés et des «paniques» du système.

plus d'informations sur edac ici:

https://www.kernel.org/doc/Documentation/edac.txt

kamger
la source
ou redémarrez, et à l'écran de démarrage GRUB, sélectionnez memtest et cela pourrait vous donner un peu plus d'informations.
kamger
Plus de message MCE ce matin là-bas (pas d'accès physique au serveur), en attendant qu'il vérifie edac, bonne idée!
Matg
1

Il peut aider à installer mcelog et à l'exécuter en tant que démon, il peut aider à fournir de meilleurs rapports. Ils sont encore énigmatiques mais il y a un peu plus d'informations pour trouver le module DIMM en question.

mcelog peut également gérer les problèmes en temps réel en désactivant les pages avec des erreurs de mémoire excessives et vous donnant ainsi plus de chances de maintenir la machine en marche plus longtemps jusqu'à ce que vous puissiez la récupérer.

Baruch Even
la source
Merci, c'est ce que j'ai fait mais plus d'erreurs depuis le premier post. Nous avons décidé de remplacer tous les modules DIMM.
Matg
Parfois, les erreurs sont des transitoires fugaces et parfois elles sont simplement liées à des endroits très spécifiques qui sont rarement touchés. Si les erreurs ne se répétaient pas, personnellement, je n'aurais pas remplacé les gradateurs et juste surveillé, mais le remplacement est également valable.
Baruch Even
1

Certains fournisseurs affirment que plusieurs erreurs corrigibles pendant une certaine période de temps ne sont pas préjudiciables.

Par exemple, Oracle indique remplacer un module DIMM lorsqu'un des événements suivants se produit:

  • Plus de 24 erreurs corrigibles (CE) proviennent en 24 heures d'une seule barrette DIMM et aucune autre barrette DIMM ne montre d'autres CE.

  • Le module DIMM échoue au test de mémoire sous BIOS en raison d'erreurs de mémoire non corrigibles (UCE).

  • Des UCE se produisent et l'enquête montre que les erreurs proviennent de la mémoire.

Remarquez 24 erreurs en 24 heures.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Aussi,

Si plusieurs modules DIMM ont connu plusieurs modules CE, les autres causes possibles de modules doivent être exclues par un spécialiste Sun Support qualifié avant de remplacer les modules DIMM.

Sur le dernier point, HP dit quelque chose de similaire: il se peut que ce soit le micrologiciel du serveur qui détecte mal les erreurs de mémoire. Ils disent que dans de nombreux cas, la mise à niveau du firmware corrige les fausses alertes positives. Cela peut être particulièrement vrai si vous avez commencé à recevoir des MCE de différents modules DIMM.

Tagar
la source