J'ai reçu un e-mail d'un utilisateur inquiet que les erreurs suivantes sur l'un de ses serveurs indiquent un problème grave. Le problème est que les erreurs ci-dessous sont tout ce que je dois continuer. Je me considère généralement comme un googleur décent, mais dans ce cas, je ne peux trouver qu'un autre incident où les utilisateurs ont rencontré cette erreur concernant "Répertoire de filtre de sonde":
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
D'après ce que je peux dire, cela n'est arrivé qu'une seule fois. La recherche des autres erreurs matérielles dans les journaux ne révèle rien d'autre que cet incident.
Le message sur le forum auquel je fais référence ci-dessus se termine simplement en disant à l'utilisateur de ne pas s'en inquiéter s'il ne s'est produit qu'une seule fois et n'a pas causé de problème fatal. C'est le même conseil que j'ai reçu de mes collègues, qui ont également mentionné qu'il y avait trop de variables (c'est-à-dire ce qui se passait à 02h50 le 8 septembre?).
Cependant, cet utilisateur veut être assuré que quelque chose ne va pas avec son système. À quoi les erreurs ci-dessus peuvent-elles indiquer ou être liées? Qu'est-ce que le "répertoire du filtre de sonde?" Quels tests puis-je exécuter pour mettre l'utilisateur à l'aise que cela ne signale pas sa machine pour un destin imminent?
La distribution Linux de la machine est Red Hat Enterprise Linux Server version 6.4 (Santiago).
la source
Réponses:
Je n'ai pas de réponse précise, mais une partie de cela est familière. Je ne sais pas ce qu'est un répertoire de filtre de sonde, mais CptSupermrkt l'a expliqué ci-dessus.
En PCI, un Northbridge se connecte à la mémoire et au processeur. Les erreurs ECC sont associées à la DRAM. Des bits de code de correction d'erreur sont stockés avec chaque mot. Lors des lectures, ils sont vérifiés lors des écritures, ils sont mis à jour. Les erreurs ECC peuvent être corrigées ou non corrigées, ce qui indique la capacité de corriger une erreur en utilisant les bits écrits. Uncorrectable n'indique pas qu'il y a une erreur matérielle permanente. Cela peut se produire lorsque la DRAM commence à échouer.
Compte tenu de tout cela, cela ressemble à une erreur transitoire. Vous pouvez essayer un test de mémoire complet, mais vous ne trouverez probablement rien. Si la DRAM a échoué, votre seule action corrective consiste à la remplacer.
la source