J'ai une triste matrice RAID sur une carte 3ware 9650SE-16ML. Ce que je ne peux pas dire, c'est si je viens de subir une panne de double disque (bummer!) Ou si je lis mal. La sortie relavent de /c0 show all
est:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Et l'échec est (de show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Je pense que ce qui s'est passé est p0 a échoué, puis p1 a eu une erreur ECC (aka, mes données ont disparu). Mais ... peut-être pas? Il reste à 97% reconstruit, mais ne peut pas surmonter cette erreur.
Pour autant que je sache, un administrateur précédent a désactivé la vérification périodique, ce qui nous a mis dans cet état. Ce n'est pas quelque chose dont la plupart des gens devraient s'inquiéter avec leurs RAID 3Ware!
Mettre à jour
Après avoir battu dessus pendant quelques jours, j'ai fait le bit IgnoreECC et il a reconstruit, mais mes données sont arrosées. Bummer.
Réponses:
Une erreur ECC signifie qu'il y a au moins un secteur illisible sur le lecteur. Cependant, si vous avez de la chance, ce secteur pourrait ne pas être réellement utilisé par le système de fichiers situé sur ce volume, par conséquent, vous pourriez toujours être en mesure de copier vos données à partir du tableau dans cet état.
Il existe également des options pour ignorer les erreurs ECC lors de la reconstruction:
Cependant, l'utilisation de ces options signifie que la bande RAID affectée par un secteur défectueux sera corrompue (vous ne savez pas exactement ce que la carte fera dans ce cas - elle pourrait remplacer la bande entière par des zéros, ou même par des données aléatoires), par conséquent, le " le tableau récupéré peut avoir une corruption indétectable (si la bande affectée était au milieu d'un fichier de données). La copie de vos données de la baie vers un autre endroit avant d'essayer de reconstruire peut être plus sûre (au moins, vous devriez obtenir des erreurs lorsque vous essayez de lire la zone défectueuse).
Vous devez configurer une vérification planifiée de la matrice pour détecter les secteurs illisibles plus tôt, afin de pouvoir remplacer un lecteur qui vient de commencer à mal fonctionner.
la source
Je n'ai jamais rencontré de lecteur physique (p0) pour passer en statut DÉGRADÉ, mais vous pourriez peut-être récupérer le lecteur ECC-ERROR ou même le lecteur DÉGRADÉ en les supprimant via
puis émettre une nouvelle analyse
les remettre dans l'unité de raid via
Les disques SATA qui m'ont échoué avec ECC-ERROR ont été en mesure de ressusciter, ne serait-ce que quelques heures avant d'échouer à nouveau.
la source
Il est très probable que vos données ont disparu. Une erreur ECC signifie une erreur irrécupérable lors de la lecture à partir de ce disque.
Si vous n'avez pas de sauvegarde, vous pouvez essayer de vider l'état actuel de la baie. Cela peut être possible car le contrôleur ne sait pas s'il a perdu des données ou simplement une zone vide (il n'a aucune idée du système de fichiers).
la source