RAID-6: mieux vaut remplacer deux disques morts en même temps, ou un à la fois?

21

Nous avons un RAID-6 à 16 disques qui a trois disques à problème. Deux sont déjà morts et le troisième donne des avertissements SMART. (Peu importe comment il est devenu dans un si mauvais état.)

Évidemment, nous voulons remplacer les disques morts avant celui qui fonctionne toujours, mais est-il préférable de:

  1. remplacez un disque mort, laissez le RAID reconstruire, puis remplacez l'autre et laissez-le reconstruire à nouveau; ou

  2. remplacer les deux disques en même temps et le laisser reconstruire les deux en parallèle?

En d'autres termes, allons-nous revenir plus rapidement à un état de redondance en réintroduisant un ou deux disques? La reconstruction de deux disques en parallèle ralentit-elle le processus de reconstruction?

En cas d'importance, le contrôleur est un 3ware 9650SE-16ML.

Warren Young
la source
10
Traversez tout ce que vous avez qui peut être traversé et envoyez à votre divinité préférée un gros don!
user9517 prend en charge GoFundMonica
1
Puis-je poser une seule question à ce sujet; pouvez-vous nous faire savoir la marque et le modèle EXACT du disque dans cette baie s'il vous plaît - si mes soupçons sont corrects, vous pouvez très bien voir cette question devenir un point de référence utile pour les futurs utilisateurs posant certaines questions. Merci.
Chopper3
8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Ils l'ont éteint? Bad JuJu mon ami! Il est trop tard cette fois-ci, mais de manière générale, l'arrêt des disques (en particulier s'il s'agit d'anciens disques qui fonctionnent depuis longtemps) leur donne la possibilité de générer des erreurs lors de la rotation (et de faire dire au contrôleur "Ouais, ce lecteur est frit aussi maintenant ")
voretaq7
2
@ voretaq7: J'ai envoyé une fois tous les disques d'une boîte MSA-20 en enfer en l'éteignant après environ 3 ans de disponibilité et d'utilisation continue. Je ne referai plus jamais ça :-)
karatedog
1
Le tableau est en place et reconstruit maintenant, donc je peux obtenir des modèles exacts, pour tous ceux qui s'en soucient. Les disques durs d'origine étaient ST31000340NS, ce qui signifie qu'ils sont la version serveur de celle que Chopper3 demandait. Alors, sont-ils connus pour avoir échoué ou quelque chose? (Les nouveaux sont ST31000524NS.)
Warren Young

Réponses:

27

!!!!! UNE !!!!!

Faites-le un à la fois, sérieusement mec, ne pensez pas à faire ça de toute autre manière, ok.

Tout le reste mettra à l'épreuve vos compétences de restauration complète du système.

Chopper3
la source
3
Les deux éléments que j'ajouterais à cette réponse sont (1) PRIÈRE (à la divinité que vous aimez) et (2) SURVEILLANCE une fois que vous aurez tout remis dans un état sûr (afin que vous sachiez quand les disques tombent en panne à l'avenir et que vous pouvez résoudre le problème avant d'avoir deux échecs et demi. Vous pouvez également configurer un
disque de
3
Ou utilisez RAID 10 </stockanswer>
Chopper3
1
Re: prière , pas de commentaire. :) Re: surveillance , je préconise cela depuis des années; peut-être que cela allumera un feu sous quelqu'un. Re: RAID-10 , trop de données sur un marché d'enchères; lorsque 3 disques TB sont sortis, nous n'avons pas triplé la redondance, nous avons réduit le nombre de disques de 1/3. Soupir. Re: hot spares , nous le faisons maintenant que les disques sont assez grands pour le permettre, mais ce serveur particulier était de 16 disques dans un boîtier de 16 disques, alors que les disques de 1 To étaient les plus gros que vous pouviez obtenir, et nous avions vraiment besoin des 14 To disponibles . Passer à un système à 24 disques n'aurait pas fonctionné; voir précédent. :)
Warren Young
2
Si les disques ont déjà échoué, il n'y a aucune raison de les conserver - je m'attends plutôt à ce que deux reconstructions consécutives soient plus stressantes pour les autres disques qu'une seule.
Simon Richter
1
+1, ceci. Bien que deux reconstructions consécutives ajoutent plus de stress et soient plus susceptibles d'entraîner la défaillance du troisième lecteur avant de terminer les deux, c'est également une reconstruction plus rapide, et si le lecteur marginal échoue lors de la reconstruction du 2e disque, vous restez toujours en ligne. Le moyen le plus rapide et le plus sûr de passer à un état tolérant aux pannes est donc un à la fois.
Joel Coel
14

Avez-vous de bonnes sauvegardes récentes? Sinon, pensez-vous pouvoir les obtenir dans un délai raisonnable?

Honnêtement, je serais plus préoccupé par le déclenchement du mauvais disque hors ligne lors d'une reconstruction que toute autre chose - Si vous lancez déjà des erreurs SMART, vous êtes plus qu'à mi-chemin.

Ma suggestion serait de confirmer vos sauvegardes, puis de reconstruire un disque à la fois pour essayer de récupérer dans un état où vous pouvez remplacer celui qui génère des erreurs SMART (disques morts en premier, erreurs logicielles en dernier).

Si vous n'avez aucune sauvegarde, c'est une séance de merde: la sauvegarde peut créer suffisamment d'erreurs logicielles pour marquer le lecteur marginal comme ayant échoué, tout comme une tentative de reconstruction.

voretaq7
la source
2
La plupart ou la totalité des données de cette baie est une sorte de cache, pour éviter d'avoir à extraire plusieurs téraoctets de données via une liaison lente. Ces données de cache sont toutes remplaçables, soit en les téléchargeant à nouveau au cours des mois (une fois), soit en les expédiant à un site qui peut copier à partir d'une autre baie. Les sauvegardes ne sont donc pas le problème. Ce que nous essayons d'empêcher en enregistrant la baie, ce sont les jours, voire les semaines, d'indisponibilité du serveur à un dépôt de service, de re-remplir la baie et de la renvoyer.
Warren Young
dans ce cas, ce que @ chopper3 a dit est à peu près la loi du pays: reconstruisez un lecteur à la fois et PRIEZ VRAIMENT VRAIMENT DIFFICILEMENT de ne pas déclencher le lecteur marginal hors ligne avec la charge de lecture supplémentaire.
voretaq7
Ouf - content de l'entendre.
Chopper3
0

Je ne vois aucun intérêt à le changer en "un disque à la fois".

De toute évidence, si le RAID est capable de "resilver" les deux disques simultanément ( qui sont de toute façon défaillants ), vous gagnez seulement en permettant au RAID entier de retrouver sa capacité à supporter jusqu'à 2 échecs plus rapidement .

poige
la source
-1

Mon 0.02. $

Le serveur étant déjà hors ligne, exécutez ddrescue sur le lecteur qui est sur le point de tomber en panne, pour le cloner sur un autre lecteur sain.

Ensuite, placez le nouveau disque sain dans le module RAID. Si le clonage réussit, vous éviterez le risque de voir ce disque tomber en panne pendant 2 reconstructions.

Guillaume A
la source
Il s'agit d'un contrôleur RAID matériel, les disques individuels ne sont pas adressables.
Chopper3