Sommaire
J'ai reçu ces messages cryptés dans syslog depuis que j'ai installé un nouveau matériel et je ne peux pas comprendre quel est le problème, s'il est sérieux, ou quoi faire à ce sujet.
Ils sont issus du nouveau SATA HBA et suivent un schéma. Je recevrai plusieurs du premier message suivi de plusieurs du deuxième message 5-30 secondes plus tard. Ils se présentent sous la forme de blobs qui sont tous enregistrés dans la même seconde et le montant exact de chacun varie entre environ 2 et 35. Cela peut prendre des minutes ou des heures entre les apparitions des entrées.
Exemple des deux messages:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Il s'agit toujours toujours de 0x31120303 suivi de 0x31110d01.
mpt2sas est le pilote de l'adaptateur de bus hôte SATA que j'utilise, mais le contenu de l'erreur est trop cryptique. Il ne me dit pas quel est le problème, avec quel disque ou port il est ni sa gravité.
Matériel
Supermicro X9SCL avec un Xeon E3-1220 et 8 Go de RAM.
HBA Supermicro AOC-USAS2-L8I SAS / SATA basé sur LSI SAS2008 connecté à un jeu de plateaux de disques Supermicro CSE-M35T-1B . Il a trois Western Digital WD30EZRX et deux Segate ST3000DM001 branchés. Tous les disques de 3 To (exactement le même nombre de secteurs en fait). Aucun expandeur de port utilisé.
Le HBA, les plateaux de disques et 4 des lecteurs sont nouveaux. L'un des WD30EZRX fonctionne depuis des mois, il n'a eu aucun problème. S'il l'avait précédemment connecté au contrôleur Intel SATA intégré, il l'a déplacé dans les baies de lecteur avec cette nouvelle configuration.
J'ai eu des problèmes avec le HBA qui devait être réinitialisé fréquemment et obtenir des performances vraiment horribles. Mise à jour du micrologiciel / bios vers "Phase 12", la dernière version disponible de Supermicro et changement du type en informatique (c'est-à-dire passthrough, de l'IR pour le raid intégré depuis que j'allais utiliser tous les raids logiciels): 2008IT12.FW. Cette mise à jour a résolu tous les premiers problèmes et je n'ai commencé à recevoir les messages ci-dessus que plus tard (voir ci-dessous).
Les quatre premiers disques que j'ai ajoutés sont tous sur le premier port SFF-8087 (divisé en 4 câbles SATA). Le dernier disque que j'ai ajouté se trouve sur l'autre port, si cela importe.
Le seul autre disque du système contient le système d'exploitation et est un ancien SSD Intel de 80 Go branché sur le contrôleur SATA intégré.
Logiciel
Ubuntu 11.10 (oneiric). Linux 3.0.0-14-serveur x86_64. Utilisation du pilote mpt2sas fourni avec le système d'exploitation.
Essayer de construire une matrice RAID6 en utilisant Linux md avec ces cinq disques. Commencé avec une matrice dégénérée de 3 disques, les deux Segates et l'un des nouveaux disques WD. Cela a été rapide et s'est très bien passé, aucun message dans les journaux après la mise à jour du firmware. Pendant ce temps, j'utilise toujours l'ancien disque WD sur le port 0 du même contrôleur.
Ajout de l'autre nouveau disque WD à la baie. La reconstruction a commencé et je reçois maintenant ces messages dans syslog périodiquement. Je ne sais pas combien de temps il est censé prendre pour ajouter un disque à la baie, mais le temps estimé (cat / proc / mdstat) varie de plusieurs milliers à plusieurs dizaines de milliers de minutes, beaucoup plus long que cela n'a pris les 3 premiers disques. Je comprends que les disques WD sont beaucoup plus lents; J'ai eu différents modèles pour réduire les risques de défaillance de plusieurs disques, et ce sont les deux modèles de 3 To les moins chers.
Remarques
SMART ne signale aucun problème sur aucun disque. Il n'y a aucune erreur enregistrée sur aucun disque et aucune des statistiques d'échec n'est proche du seuil.
Les messages enregistrés n'ont commencé à apparaître qu'après avoir ajouté le dernier disque, ce qui suggère que l'un peut avoir un problème mais je n'ai rien d'autre à signaler.
J'ai trouvé un fichier d'en-tête qui semble correspondre aux messages de journalisation de ce pilote. Le premier message semble être un abandon (code 12) pour un "sous-code" 0303 qui n'est pas répertorié. Le deuxième message est une réinitialisation (code 11) pour une raison qui n'est pas claire non plus. Si je pouvais déterminer ce que signifient 0303 et 0d01, ce serait vraiment utile.
Je sais que 4 disques dans un RAID6 à 5 disques est une matrice incomplète. Je prévois de copier le contenu de l'ancien disque sur la baie une fois qu'il a fini d'intégrer le 4ème disque, puis d'ajouter également l'ancien disque sur la baie.
Wow, difficile.
Cela semble indiquer que 0x31120303 est une réinitialisation du bus car l'un de vos appareils est sous forte charge. Il indique également que vous n'avez pas à vous en préoccuper. (Haha, ouais c'est ça.)
Cela indique que ces messages de journal se produisent car l'un de vos appareils prend trop de temps pour répondre aux commandes. Cela dit la même chose et indique également que cela se produit sous une charge lourde.
Bien que ce ne soit pas une réponse complète, nous espérons qu'elle vous orientera dans une direction utile.
la source
Cela signifie que vous avez une erreur sur le disque, il s'agit d'un disque SATA dans un contrôleur SAS de LSI et en raison de l'erreur, toutes les demandes en suspens ont été abandonnées.
Dans la plupart des cas, vous avez une erreur moyenne sur le disque qui est le déclencheur de cette erreur. Cette erreur en elle-même ne signifie pas une erreur moyenne et vous devrez vérifier les journaux pour d'autres indices pour trouver quelle est la source de la défaillance du disque d'origine.
Version légèrement plus élaborée sur: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/
la source