Je travaille sur un serveur distant (Dell Poweredge) qui était une nouvelle installation. Il dispose de quatre disques (2 To) et de 2 SSD (250 Go). Un SSD contient le système d'exploitation (RHEL7) et les quatre disques mécaniques vont finalement contenir une base de données Oracle.
Essayer de créer une matrice RAID logicielle a conduit à des disques constamment marqués comme défectueux. La vérification de dmesg génère une série des erreurs suivantes,
[127491.711407] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719699] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127491.719717] sd 0:0:4:0: [sde] Sense Key : Aborted Command [current]
[127491.719726] sd 0:0:4:0: [sde] Add. Sense: Logical block guard check failed
[127491.719734] sd 0:0:4:0: [sde] CDB: Read(32)
[127491.719742] sd 0:0:4:0: [sde] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127491.719750] sd 0:0:4:0: [sde] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127491.719757] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719764] Buffer I/O error on dev sde, logical block 488378260, async page read
[127497.440222] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.440240] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.440249] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.440258] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.440266] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.440273] sd 0:0:5:0: [sdf] CDB[10]: 00 01 a0 00 00 01 a0 00 00 00 00 00 00 00 00 08
[127497.440280] blk_update_request: I/O error, dev sdf, sector 106496
[127497.901432] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.901449] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.901458] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.901467] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.901475] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.901482] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.901489] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911003] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.911019] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.911029] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.911037] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.911045] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.911052] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.911059] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911067] Buffer I/O error on dev sdf, logical block 488378260, async page read
Ces erreurs se produisent pour les quatre disques mécaniques, (sdc / sdd / sde / sdf) SMARTctl a réussi les quatre disques, tests longs et courts. J'exécute actuellement des badblocks (test du mode d'écriture ~ 35 heures, probablement encore 35 heures).
Voici les erreurs que j'ai soupçonnées / prises en compte lors de la recherche
Disque dur défectueux - Il semble peu probable que 4 disques «remis à neuf» soient DOA, n'est-ce pas?
Problème de contrôleur de stockage (mauvais câble?) - Il semble que cela affecterait également les SSD?
- Problème de noyau, le seul changement au noyau de stock a été l'ajout de kmod-oracleasm. Je ne vois vraiment pas comment cela pourrait causer ces défauts, ASM n'est pas configuré du tout.
Un autre événement notable a été lors de la tentative de remise à zéro des disques (dans le cadre du dépannage précoce), en utilisant la commande $ dd si = / dev / zero of = / dev / sdX a généré ces erreurs,
dd: writing to ‘/dev/sdc’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70583 s, 32.0 MB/s
dd: writing to ‘/dev/sdd’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70417 s, 32.0 MB/s
dd: writing to ‘/dev/sde’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71813 s, 31.7 MB/s
dd: writing to ‘/dev/sdf’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71157 s, 31.9 MB/s
Si quelqu'un ici pouvait partager un aperçu de ce qui pourrait causer cela, je vous en serais reconnaissant. Je suis enclin à suivre le rasoir d'Occam ici et à aller directement vers les disques durs, le seul doute vient de l'improbabilité de quatre disques durs défectueux hors de leur boîte.
Je me rendrai sur le site demain pour une inspection physique et pour faire rapport de mon évaluation de cette machine aux plus hauts responsables. S'il y a quelque chose que je devrais inspecter physiquement (au-delà des câbles / connexions / alimentation), veuillez me le faire savoir.
Merci.
la source
smartctl -x /dev/sda
ou quelque chose. Mais il est très suspect que ce soit le même LBA sur tous les disques.Réponses:
Vos
dd
tests montrent que les quatre disques échouent tous à la même adresse LBA . Comme il est extrêmement improbable que quatre disques tombent tous en panne au même endroit, je soupçonne fortement que cela est dû à des problèmes de contrôleur ou de câblage.la source
dd
extrémités soient mises en cache sur la même adresse RAM défaillante. De plus, la DRAM de PERC est protégée par ECC et, bien que la RAM ECC échoue également, elle est relativement rare. Cela dit, le contrôleur peut être à l'origine des problèmes.Par conséquent, si le changement de câbles n'aide pas, l'OP doit essayer d'échanger le contrôleur.