«Mce: [Erreur matérielle]: événements de vérification de la machine enregistrés» apparaît dans syslog. Que devrais-je faire?

19

J'ai installé la dernière version d' OSSEC (2.8.1) et j'ai également activé les notifications par e-mail. Et je reçois beaucoup de ces types de notifications disant qu'il y a une erreur matérielle et quelque chose à propos de mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Alors qu'est-ce que cela signifie exactement? Que signifie mce? Et cette erreur matérielle apparente est-elle quelque chose dont je dois m'inquiéter?


Informations sur le système d'exploitation:

Description:    Ubuntu 14.10
Release:    14.10
Eric Carvalho
la source
Vous devrez faire un peu de lecture sur ossec, voir les règles - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders . L'interface Web aide car elle a un certain nombre d'explications - ossec.net/wiki/index.php/OSSECWUI:Install
Panther
ossec est probablement mal supporté ou hors sujet ici car il n'est pas dans les référentiels ubuntu
Panther
1
Il ne s'agit pas du tout d'OSSEC. Vous avez reçu cette notification car OSSEC a trouvé le mot "erreur" dans syslog. Bien que je ne pense pas que ce soit hors sujet, vous obtiendrez probablement plus d'aide sous Unix & Linux ou Server Fault .
Eric Carvalho
4
@ bodhi.zazen Tout ce qu'il faut faire pour être sur le sujet est exécuté sur Ubuntu. Maintenant, cela ne signifie pas que vous obtiendrez une réponse bien sûr.
Seth

Réponses:

23

Exception de vérification de la machine :

Une exception de vérification de l'ordinateur (MCE) est un type d'erreur de matériel informatique qui se produit lorsque l'unité centrale de traitement d'un ordinateur détecte un problème matériel.

Votre ordinateur a rencontré une erreur matérielle et le noyau a enregistré un événement dans un tampon. Vous pouvez utiliser mcelogpour enregistrer et afficher les événements de vérification de la machine. Depuis la mcelogpage de manuel :

Les CPU X86 signalent les erreurs détectées par le CPU en tant qu'événements de vérification de la machine (MCE). Il peut s'agir d'une corruption de données détectée dans les caches CPU, dans la mémoire principale par un contrôleur de mémoire intégré, d'erreurs de transfert de données sur le bus frontal ou d'interconnexion CPU ou d'autres erreurs internes. Les causes possibles peuvent être le rayonnement cosmique, les alimentations électriques instables, les problèmes de refroidissement, le matériel cassé, les systèmes en cours de fonctionnement hors spécifications ou la malchance.

La plupart des erreurs peuvent être corrigées par le CPU par des mécanismes internes de correction d'erreurs. Les erreurs non corrigées provoquent des exceptions de vérification de la machine qui peuvent tuer les processus ou paniquer la machine. Un petit nombre d'erreurs corrigées n'est généralement pas une source d'inquiétude, mais un grand nombre peut indiquer une panne future.

Lorsqu'une erreur corrigée ou récupérée se produit, le noyau x86 écrit un enregistrement décrivant le MCE dans un tampon en anneau interne disponible via le périphérique / dev / mcelog. mcelog récupère les erreurs de / dev / mcelog, les décode dans un format lisible par l'homme et les imprime sur la sortie standard ou éventuellement dans le journal système.

Si vous n'avez remarqué aucun plantage, l'erreur a probablement été corrigée avec succès. Pourtant, je vous conseille d'installer mcelogpour suivre ces événements:

sudo apt-get install mcelog

Les événements seront enregistrés /var/log/mcelog. Vous pouvez également exécuter:

sudo mcelog --client

pour rechercher des mcelogerreurs dans le démon.

Eric Carvalho
la source
2
Je me demande pourquoi les erreurs MCE ne sont pas simplement écrites directement dans un journal système ... probablement une bonne raison, peut
Xen2050
2
@ Xen2050 Parce que le décodage du message dépend de l'architecture et n'est pas toujours documenté par les fabricants de matériel. L'erreur pourrait être générée même par le bus PCIe.
Mircea Vutcovici
4
@ Xen2050: Sur ma machine Fedora 25, les messages MCE sont écrits dans le journal, je peux les voir avec journalctl -b.
Martin Ueding