RAID-5: deux disques sont tombés en panne simultanément?

21

Nous avons un serveur Dell PowerEdge T410 exécutant CentOS, avec une matrice RAID-5 contenant 5 disques SATA Seagate Barracuda 3 To. Hier, le système est tombé en panne (je ne sais pas exactement et je n'ai aucun journal).

Lors du démarrage dans le BIOS du contrôleur RAID, j'ai vu que sur les 5 disques, le disque 1 était étiqueté «manquant» et le disque 3 était «dégradé». J'ai forcé la sauvegarde du disque 3 et remplacé le disque 1 par un nouveau disque dur (de la même taille). Le BIOS l'a détecté et a commencé à reconstruire le disque 1 - mais il est resté bloqué à% 1. L'indicateur de progression de la rotation n'a pas bougé toute la nuit; totalement gelé.

Quelles sont mes options ici? Existe-t-il un moyen de tenter de reconstruire, en plus d'utiliser un service de récupération de données professionnel? Comment deux disques durs pourraient-ils tomber en panne simultanément comme ça? Semble trop fortuit. Est-il possible que le disque 1 soit tombé en panne et que le disque 3 "ne soit plus synchronisé?" Si oui, existe-t-il un utilitaire que je peux utiliser pour le récupérer "en synchronisation?"

raid storage hardware-raid raid5 data-recovery Mike Furlender
la source

20

Oui, les gros disques SATA ont tendance à faire ça. (La reconstruction de 3 To prend plusieurs heures pendant que vous êtes exposé à des doubles échecs). C'est donc normal et c'est pourquoi RAID-5 utilisant une telle configuration n'est absolument pas recommandé.

MichelZ

9

Effectivement. Dans un monde idéal, les taux de défaillance des disques sont répartis de manière aléatoire. En pratique, cela ne se produit pas - ils sont généralement achetés dans le même lot et soumis aux mêmes contraintes, ce qui signifie qu'ils commencent tous à toucher la fin de vie en même temps. Un changement soudain de chargement peut facilement faire basculer plusieurs «par-dessus bord», avant même de commencer à regarder les taux d'erreur irrécupérables sur les disques SATA. Quoi qu'il en soit - je crains que la mauvaise nouvelle soit que, sauf si vous pouvez obtenir l'un de ces disques en ligne, il est temps de retirer les sauvegardes.

Sobrique

6

serverfault.com/questions/339128/…

MichelZ

5

Je sais que cela n'aide pas beaucoup maintenant, mais juste pour info - le consensus général est d'utiliser RAID6 pour des disques supérieurs à 1 To (au moins lorsque nous parlons de 7200 tr / min).

pauska

2

RAID 5 offre une tolérance aux pannes, mais c'est une option de compromis - vous avez une résilience N + 1, mais si vous avez de gros disques, vous avez une grande fenêtre où un deuxième défaut peut se produire. RAID-6 offre une tolérance aux pannes N + 2, qui est généralement considérée comme bonne (les probabilités de triple échec sont beaucoup plus faibles). Cependant, vous trouverez également le taux d'échec des disques plus chers (par exemple, les disques SATA pas chers)

Sobrique

24

Après avoir accepté une mauvaise réponse, je suis vraiment désolé pour mon avis hérétique (qui a déjà sauvé plusieurs fois de tels tableaux).

Votre deuxième disque défectueux a probablement un problème mineur, peut-être une défaillance de bloc. C'est la raison pour laquelle le mauvais outil de synchronisation de votre mauvais firmware raid5 s'est écrasé dessus.

Vous pouvez facilement faire une copie au niveau du secteur avec un outil de clonage de disque de bas niveau (par exemple, gddrescue est probablement très utile) et utiliser ce disque comme nouveau disque3. Dans ce cas, votre baie a survécu avec une corruption de données mineure.

Je suis désolé, il est probablement trop tard, car l'essence de la réponse orthodoxe dans ce cas: "échec multiple dans un raid5, voici l'apocalypse!"

Si vous voulez un très bon raid redondant, utilisez le logiciel raid sous linux. Par exemple, sa disposition de données de superbloc raid est publique et documentée ... Je suis vraiment désolé, pour ce ceci, une autre opinion hérétique.

peterh dit réintégrer Monica
la source

8

Dommage que cela ait fait chuter les votes, cela tente en fait d'aider le PO à réparer le gâchis contrairement à certains autres. +1

Vality

3

@Vality, il n'essaie pas de résoudre le désordre, il étend ses problèmes. Un raid5 avec des blocs corrompus brûlés n'endommage pas car il passera les contrôles d'intégrité mais se dégradera régulièrement. De plus, il n'aurait aucune idée des données corrompues. Si c'était aussi simple que de réparer un bloc, ce serait la solution standard.

JamesRyan

4

@JamesRyan Je conviens que cela causera des problèmes ultérieurs et je conviens même qu'il y a des problèmes sous-jacents ici. Cependant, il offre une solution valide sur la façon de récupérer certaines fonctionnalités et comme l'OP parlait d'experts en récupération de données, je ne peux que supposer qu'ils n'ont pas de sauvegardes pour récupérer leurs données autrement. En fin de compte, cette solution ne serait qu'une partie d'un correctif.Une fois que cette méthode aura redémarré le système, vous voudrez probablement transférer le système de fichiers sur 5 nouveaux disques, puis le sauvegarder.

Vality

1

"Vous pourriez facilement faire une copie au niveau sectoriel d'un outil de copie de bloc" Est-ce vraiment ce que vous vouliez écrire?

Arnaud Meuret

1

@MikeFurlender Je pense que le matériel est plus rapide, mais propriétaire et donc fragile car vous devez obtenir exactement le même contrôleur en cas de défaillance. Le RAID logiciel est indépendant du matériel. Voir btrfs et zfs.

Martin Ueding

38

Vous avez une panne de double disque. Cela signifie que vos données ont disparu et que vous devrez restaurer à partir d'une sauvegarde. C'est pourquoi nous ne sommes pas censés utiliser le raid 5 sur de grands disques. Vous souhaitez configurer votre raid afin de toujours avoir la capacité de résister à deux pannes de disque, en particulier avec de gros disques lents.

Basilic
la source

3

Il y a deux problèmes avec RAID5. Un: le temps de reconstruction de 3 To, étant donné un disque SATA lent, peut être important, ce qui augmente les chances d'une défaillance composée. L'autre est le taux d'erreur sur les bits irrécupérable - la fiche technique de la plupart des disques SATA contient 1/10 ^ 14, soit - environ - 12 To de données. Avec un RAID 3B à 5 voies, cela devient presque inévitable lorsqu'une reconstruction est nécessaire.

Sobrique

1

J'utilise RAID5 sur ma baie de disques 3 To 5, je jouais avec l'obtention d'une deuxième baie à utiliser comme copie répliquée de la première. De cette façon, pour que je perde les données, il faudrait plus d'un disque pour échouer sur les deux baies en même temps (donc j'aurais besoin de 4 disques), mais en gardant toujours cette grande quantité pour la capacité disponible. Après avoir lu ceci, je peux maintenant accélérer ce délai pour obtenir le deuxième tableau.

Guerre

1

Il n'a probablement qu'un mauvais bloc sur son disque3. Je me demande vraiment pourquoi un administrateur système professionnel n'a jamais entendu parler d'outils de copie au niveau du bloc.

peterh dit réintégrer Monica

1

@Wardy, le raid 6 ne vous donnerait-il pas cela?

Basil

3

Pas une réponse très utile. Bien sûr, avec une double panne de disque sur un RAID 5, les chances de récupération ne sont pas bonnes. Mais la plupart des échecs de double disque sur RAID 5 ne sont probablement qu'une affaire de disque défectueux et de quelques erreurs de lecture non corrigées sur d'autres disques. Si tel est le cas, la récupération de la plupart des données est toujours possible avec les bons outils. Des pointeurs vers de tels outils seraient utiles.

kasperd

37

Vos options sont:

Restauration à partir de sauvegardes.
- Vous n'avez des sauvegardes, ne pas vous? RAID n'est pas une sauvegarde.
Récupération de données professionnelle
- Il est possible, bien que très coûteux et non garanti, qu'un service de récupération professionnel puisse récupérer vos données.
Accepter votre perte de données et apprendre de l'expérience.
- Comme indiqué dans les commentaires, les grands disques SATA ne sont pas recommandés pour une configuration RAID 5 en raison du risque de double échec lors de la reconstruction entraînant l'échec de la baie.
  - S'il doit s'agir d'un RAID de parité, le RAID 6 est meilleur et la prochaine fois, utilisez également un disque de secours.
  - Les disques SAS sont meilleurs pour diverses raisons, notamment plus de fiabilité, de résilience et des taux d'erreurs binaires irrécupérables plus faibles qui peuvent provoquer des URE (erreurs de lecture irrécupérables)
- Comme indiqué ci-dessus, RAID n'est pas une sauvegarde. Si les données sont importantes, assurez-vous qu'elles sont sauvegardées et que vos sauvegardes sont testées pour la restauration.

HopelessN00b
la source

1

Si vous avez 5 disques (selon l'OP) et que vous êtes engagé dans un disque de rechange, vous prendrez sûrement RAID10 sur RAID6 ...?

jimbobmcgee

1

Eh bien, pour commencer - vous utiliseriez 4 broches dans un RAID 1 + 0 pour obtenir 2 disques d'espace, laissant un disque de «rechange». Vous pouvez tolérer deux échecs (les deux bons au moins). RAID6 vous donnerait 3 disques d'espace et peut également tolérer deux pannes (deux quelconques). RAID1 + 0 a une meilleure capacité de performances, avec une pénalité en écriture plus faible et des performances de lecture aléatoire potentiellement meilleures (les lectures peuvent être effectuées à partir de l'un des deux axes).

Sobrique

Pour le point 2. Récupération de données. La récupération professionnelle de données à partir d'un RAID5 peut vous coûter facilement 20 000 $. De plus, OP laisse la reconstruction s'exécuter pendant la nuit, sollicitant le disque, ce qui peut rendre la récupération plus difficile, voire impossible. Je vous informe juste à l'avance. Assurez-vous d'envoyer tous les disques.

OmnipotentEntity

4

Un échec simultané est possible, voire probable, pour les raisons avancées par d'autres. L'autre possibilité est que l'un des disques était tombé en panne quelque temps auparavant et que vous ne le contrôliez pas activement.

Assurez-vous que votre surveillance capterait rapidement un volume RAID fonctionnant en mode dégradé. Peut-être que vous n'avez pas eu d'option mais ce n'est jamais bon d'avoir à apprendre ces choses à partir du BIOS.

richardb
la source

3

+1 pour avoir mentionné une surveillance négligée. Il est important de remarquer déjà l'étape "normale" -> "critique", pas l'étape "critique" -> "échoué". Cela vaut également pour tous les autres types de licenciements (ligne internet de secours, bière au sous-sol, roue de secours, ...).

Hagen von Eitzen

2

Pour répondre "Comment deux disques durs peuvent-ils tomber en panne simultanément comme ça?" précisément, je voudrais citer cet article :

Le nœud de l'argument est le suivant. Les unités de disque étant devenues de plus en plus grandes (doublant environ en deux ans), l'URE (erreur de lecture irrécupérable) ne s'est pas amélioré au même rythme. URE mesure la fréquence d'apparition d'une erreur de lecture irrécupérable et est généralement mesurée en erreurs par bits lus. Par exemple, un taux URE de 1E-14 (10 ^ -14) implique que statistiquement, une erreur de lecture irrécupérable se produirait une fois tous les 1E14 bits lus (1E14 bits = 1,2513 octets ou environ 12 To).

...

L'argument est qu'à mesure que les capacités du disque augmentent et que le taux d'URÉ ne s'améliore pas au même rythme, la possibilité d'un échec de reconstruction RAID5 augmente avec le temps. Statistiquement, il montre qu'en 2009, les capacités des disques auraient suffisamment augmenté pour rendre inutile l'utilisation de RAID5 pour toute matrice significative.

Ainsi, RAID5 n'était pas sûr en 2009. RAID6 le sera bientôt aussi. Quant à RAID1, j'ai commencé à les fabriquer à partir de 3 disques. RAID10 avec 4 disques est également précaire.

Halfgaar
la source

3

Encore une fois, le RAID n'est pas une alternative de sauvegarde, il s'agit simplement d'ajouter "une zone tampon" pendant laquelle un disque peut être remplacé afin de garder les données disponibles ... disponibles. L'autre option consiste à utiliser la réplication qui nécessiterait 2 tableaux pour échouer en même temps ... beaucoup moins probable, je pense.

Guerre le

Personnellement, je n'aime pas le mantra selon lequel le RAID n'est pas une sauvegarde. Le dictionnaire dit: "une personne, un plan, un appareil, etc., gardé en réserve pour servir de remplaçant, si nécessaire." Si le montant de la redondance n'est pas suffisant, il ne servira pas de substitut. Si vous ne vous souciez pas de la redondance RAID fournie, vous pouvez tout aussi bien ne pas l'utiliser. Quant au fait qu'il ne remplace pas les sauvegardes hors disque et hors site, c'est une toute autre affaire, avec laquelle je suis d'accord (bien sûr).

Halfgaar

Alors, que pensez-vous de ceux qui utilisent des bandes RAID sans redondance? dans ce cas, la matrice RAID est utilisée uniquement pour obtenir un avantage en termes de performances, ce qui est une utilisation parfaitement valable IMO à mon avis. n lecteurs échouent pour garantir que les données sont toujours disponibles.

Guerre le

Quiconque implémentant RAID choisirait le type de RAID qu'il souhaite utiliser en fonction de ses besoins, de sa vitesse, de sa fiabilité ou d'une combinaison des 2, mais cela ne fait toujours pas de RAID une forme de solution de sauvegarde.

Guerre le

1

Quand les gens disent que RAID n'est pas une sauvegarde, ils ne parlent pas de disponibilité. Je pense que vous ne faites que jouer avec les mots. :)

gparent

2

Le thread est ancien mais si vous lisez, comprenez quand un disque tombe en panne dans une matrice RAID, vérifiez l'âge des disques. Si vous disposez de plusieurs disques dans un réseau RAID et qu'ils ont plus de 4 à 5 ans, les chances sont bonnes qu'un autre disque tombe en panne. *** FAITES UNE IMAGE ou une sauvegarde ** avant de continuer. Si vous pensez avoir une sauvegarde, testez-la pour vous assurer que vous pouvez la lire et la restaurer.

La raison en est que vous placez des années d'usure normale sur les disques restants alors qu'ils tournent à pleine vitesse pendant des heures et des heures. Plus le nombre de disques durs de 6 ans est élevé, plus le risque de défaillance d'un autre disque dur augmente. Si c'est RAID5, et que vous faites exploser la baie, génial vous avez une sauvegarde mais un disque de 2 To prendra 8 à 36 heures à restaurer selon le type de contrôleur de raid et autre matériel.

Nous remplaçons régulièrement la ruche de raid entière sur les serveurs de production si tous les disques sont vieux. Pourquoi ne pas perdre de temps à remplacer un lecteur, puis attendre que le suivant tombe en panne dans un jour, une semaine, un mois ou deux. Aussi effrayants que soient les lecteurs, cela ne vaut tout simplement pas le temps d'arrêt.

Rickkee Ranton
la source

1

Généralement, lorsque vous achetez des disques en grande quantité auprès d'un revendeur réputé, vous pouvez demander que les disques proviennent de différents lots, ce qui est important pour les raisons indiquées ci-dessus. Ensuite, c'est précisément la raison pour laquelle RAID 1 + 0 existe. Si vous aviez utilisé 6 disques en RAID 1 + 0, vous auriez eu 9 To de données avec redondance immédiate où aucune reconstruction d'un volume n'est nécessaire.

Payton Byrd
la source

Où est la preuve montrant que la partie sur l'utilisation des lecteurs de différents lots est tout sauf un mythe urbain? En outre, RAID 1 ne protège pas comme par magie contre l'exécution dans des secteurs illisibles pendant la reconstruction. Si vous voulez une protection contre cela, vous allez soit avec RAID 6 ou avec RAID 1 avec 3 miroirs (un peu cher).

kasperd

1

@kasperd Je pense que la question qui constitue la première partie de votre commentaire est similaire, bien qu'elle ne soit évidemment pas exactement la même que, Dois-je `` exécuter '' un disque d'une nouvelle paire RAID 1 pour diminuer le risque d'un temps de défaillance similaire? .

un CVn du

1

Si votre contrôleur est reconnu par dmraid (par exemple ici ) sur linux, vous pourrez peut-être utiliser ddrescue pour récupérer le disque défaillant sur un nouveau, et utiliser dmraid pour construire le tableau, au lieu de votre contrôleur matériel.

Brian Minton
la source

RAID-5: deux disques sont tombés en panne simultanément?

Réponses: