Les disques durs tombent hors ligne pour une raison inconnue

11

J'ai 7 systèmes exécutant la configuration ci-dessous. De temps en temps, un autre disque tombe hors ligne, mais en y regardant de plus près, le disque est bon et non défectueux et fonctionne parfaitement pendant au moins une autre année. Comme cela se produit sur tous les 7 systèmes, je trouve peu probable qu'il y ait une seule pièce qui agit (par exemple un câble), mais que c'est plutôt la combinaison de certaines des pièces qui sont légèrement incompatibles.

Le problème est de localiser le point exact où se trouve l'incompatibilité.

(Si vous avez à la place une solution de contournement où vous pouvez réinstaller virtuellement le disque dur à partir de la ligne de commande, vous pourrez peut-être répondre à /server/523315/re-activate-device -qui est considéré comme mort ).

Matériel du serveur: Dell 1950, Dell R815, Dell R715.

Système opérateur:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Manette:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

Extenseur SAS / SATA Fond de panier d'extension Supermicro 4U SAS / SATA avec une seule puce d'extension LSI SAS2X36:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Disques:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Disques dans un seul système:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)
Ole Tange
la source
9
+1 pour commencer à poser les questions importantes :)
Sven
Un mauvais câble, qui manque de blindage, peut entraîner des problèmes avec les sommes de contrôle. [provoquant ainsi des problèmes de lecture et d'écriture]. Avez-vous essayé de remplacer les câbles?
monksy
Les câbles ont été remplacés par des produits connus. Je m'attendrais également à ce que Linux réessaye la commande après avoir réinitialisé le bus scsi.
Ole Tange
2
D'après ce que j'ai réussi à trouver jusqu'à présent, les messages indiquent qu'il y a des problèmes de connectivité - pas des alertes SMART .. peut-être que quelqu'un d'autre avec une vaste expérience BiY peut vous aider. Tout ce que je sais, c'est qu'ils restent à l'écart des disques S-ATA dans les grandes configurations en raison du manque de commandes / files d'attente par rapport à SAS. J'en demanderai à quelques-uns pour y jeter un œil.
pauska
@pauska Pouvez-vous élaborer (avec des liens?) ce que vous avez déterré?
Ole Tange

Réponses:

1

Il nous manque des informations ici. Vous suggérez que vous disposez de 24 à 45 disques par serveur dans cette configuration de stockage.

  • Quels contrôleurs spécifiques utilisez-vous?
  • En raison du nombre de disques, certains disques peuvent se trouver dans un boîtier externe. Veuillez indiquer la marque / le modèle du boîtier de disque dur externe utilisé.
  • Quels modèles de disques spécifiques utilisez-vous? Sont tous des disques durs de bureau de qualité?
  • Quel système de fichiers utilisez-vous?
  • Décrivez la disposition du disque et du RAID.
  • Cela a-t-il toujours été un problème ou s'est-il développé au fil du temps?
  • Supermicro est-il impliqué quelque part dans cette configuration?

Selon la configuration du boîtier, vous pouvez rencontrer des délais d'expiration SATA ou des erreurs de bus. Cela peut avoir un effet néfaste sur tous les disques connectés au contrôleur.

Un autre problème pourrait être une mauvaise négociation de la liaison SAS / SATA. J'ai certainement vécu cela sur certains expandeurs SAS lorsque des disques de 1,5 Gbit / s et 6,0 Gbit / s sont mélangés sur la même carte.

Veuillez fournir plus d'informations.

ewwhite
la source
Je suis très intéressé par votre question sur Supermicro. Peux-tu élaborer?
Halfgaar
@Halfgaar Pourriez-vous fournir les commentaires sur les autres questions que j'ai posées?
ewwhite
Le message d'origine n'est pas le mien. Je suis simplement curieux de cette déclaration.
Halfgaar
1
@Halfgaar Ooops ... Eh bien, j'ai trouvé que les cartes d'extension / backplanes Supermicro SAS et certains des boîtiers JBOD ne se comportent pas de manière prévisible dans de nombreuses circonstances. La note dans ma réponse sur le rétrogradage de la vitesse SAS / SATA et la négociation de liaison est quelque chose que je n'ai expérimenté que sur certaines révisions de l'équipement Supermicro. Je ne peux pas non plus utiliser leurs JBOD pour ZFS à cause d'un comportement bancal.
ewwhite