Que signifie tw_cli de 3Ware par un disque «DÉGRADÉ» par rapport à «ECC-ERROR»?

10

J'ai une triste matrice RAID sur une carte 3ware 9650SE-16ML. Ce que je ne peux pas dire, c'est si je viens de subir une panne de double disque (bummer!) Ou si je lis mal. La sortie relavent de /c0 show allest:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

Et l'échec est (de show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Je pense que ce qui s'est passé est p0 a échoué, puis p1 a eu une erreur ECC (aka, mes données ont disparu). Mais ... peut-être pas? Il reste à 97% reconstruit, mais ne peut pas surmonter cette erreur.

Pour autant que je sache, un administrateur précédent a désactivé la vérification périodique, ce qui nous a mis dans cet état. Ce n'est pas quelque chose dont la plupart des gens devraient s'inquiéter avec leurs RAID 3Ware!

Mettre à jour

Après avoir battu dessus pendant quelques jours, j'ai fait le bit IgnoreECC et il a reconstruit, mais mes données sont arrosées. Bummer.

Bill Weiss
la source
Essayez la méthode Freezer Recovery s'il contient des données importantes.
Chris S
Je ne suis pas contre l'astuce du congélateur, mais ce n'est pas pour un mode de défaillance spécifique, pas seulement "mon lecteur est mort"?
Bill Weiss
Le disque étiqueté DEGRADED est le disque cible de l'opération REBUILD.
wazoox

Réponses:

7

Une erreur ECC signifie qu'il y a au moins un secteur illisible sur le lecteur. Cependant, si vous avez de la chance, ce secteur pourrait ne pas être réellement utilisé par le système de fichiers situé sur ce volume, par conséquent, vous pourriez toujours être en mesure de copier vos données à partir du tableau dans cet état.

Il existe également des options pour ignorer les erreurs ECC lors de la reconstruction:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Cependant, l'utilisation de ces options signifie que la bande RAID affectée par un secteur défectueux sera corrompue (vous ne savez pas exactement ce que la carte fera dans ce cas - elle pourrait remplacer la bande entière par des zéros, ou même par des données aléatoires), par conséquent, le " le tableau récupéré peut avoir une corruption indétectable (si la bande affectée était au milieu d'un fichier de données). La copie de vos données de la baie vers un autre endroit avant d'essayer de reconstruire peut être plus sûre (au moins, vous devriez obtenir des erreurs lorsque vous essayez de lire la zone défectueuse).

Vous devez configurer une vérification planifiée de la matrice pour détecter les secteurs illisibles plus tôt, afin de pouvoir remplacer un lecteur qui vient de commencer à mal fonctionner.

Sergey Vlasov
la source
Je fais le bit ignoreECC maintenant. Pas très bien pour mes données.
Bill Weiss
1
Et, oui, nous devrions laisser les tableaux vérifier de temps en temps. Je suppose que le gars qui a mis cela en place a désactivé cela pour des raisons de performance :(
Bill Weiss
Eh bien, cela a traversé la reconstruction, mais nommé sur mes données. Bummer. Cela nous apprendra à désactiver la vérification ...
Bill Weiss
4

Je n'ai jamais rencontré de lecteur physique (p0) pour passer en statut DÉGRADÉ, mais vous pourriez peut-être récupérer le lecteur ECC-ERROR ou même le lecteur DÉGRADÉ en les supprimant via

/c0 p1 remove

puis émettre une nouvelle analyse

/c0 rescan

les remettre dans l'unité de raid via

maint rebuild c0 u0 p1

Les disques SATA qui m'ont échoué avec ECC-ERROR ont été en mesure de ressusciter, ne serait-ce que quelques heures avant d'échouer à nouveau.

ZaphodB
la source
3
Le retrait du lecteur p1 dans l'état actuel pourrait probablement arroser complètement la baie.
Sergey Vlasov
J'ai fait cela avec le lecteur p0 (en supposant que c'était le mauvais) et il essaie de reconstruire, mais il a marqué le lecteur comme DÉGRADÉ presque immédiatement. Bummer.
Bill Weiss
1
AFAIR, le disque est marqué comme DÉGRADÉ pendant la reconstruction - voir, par exemple, ici . Ce qui est important, c'est l'état du tableau (RECONSTRUCTION ou autre chose?).
Sergey Vlasov
Hm. Il s'agit en fait d'une reconstruction ... Les quatre disques clignotent beaucoup, c'est bon signe, non?
Bill Weiss
Stiiiiiil reconstruit ... c'est à 37% après 4 heures. Bummer.
Bill Weiss
2

Il est très probable que vos données ont disparu. Une erreur ECC signifie une erreur irrécupérable lors de la lecture à partir de ce disque.

Si vous n'avez pas de sauvegarde, vous pouvez essayer de vider l'état actuel de la baie. Cela peut être possible car le contrôleur ne sait pas s'il a perdu des données ou simplement une zone vide (il n'a aucune idée du système de fichiers).

Sven
la source