Qu'est-ce qui compte comme un «grand» réseau RAID 5?

11

Un problème récent avec un NAS Buffalo TeraStation ici dans mon bureau m'a amené à enquêter sur Raid 5.

J'ai trouvé quelques articles différents parlant de l'inadéquation de l'utilisation du raid 5 dans de grandes baies ou avec de grands disques

Voici un exemple d'article qui parle des problèmes de reconstruction d'une baie avec de grands disques grand public.

J'essaie de déterminer ce qui compte comme «grand»?

Le NAS que nous avons ici est une configuration Raid 5 à 4 disques, chaque disque fait 1 To. Un disque est tombé en panne et a été remplacé, la baie est en cours de reconstruction.

Cette configuration est-elle aussi importante, en termes de problème probable lors de la reconstruction?

Quelle est la fiabilité de cette configuration pour une utilisation quotidienne?

Rob
la source
2
Compte tenu de votre charge système habituelle, combien de temps le contrôleur attend-il de la reconstruction? Quel est le MTBF des disques durs? Une fois que vous avez ces deux chiffres, vous connaissez la possibilité d'une seconde - et catastrophique - panne lors de la reconstruction du RAID. Gardez à l'esprit que les disques durs sont les plus stressés lors de la reconstruction, le résultat ci-dessus sera donc une sous-estimation des chances de double échec.
MadHatter
3
En passant, vous savez que RAID n'est pas une sauvegarde, non?
cjc
5
@cjc, ajoutez-vous cette perle de sagesse à chaque question RAID sur SF, ou est-ce que quelque chose à ce sujet vous fait penser que l'OP pense que le RAID est une sauvegarde?
BlueCompute
Oui, j'en suis conscient. Tout est sauvegardé, je voulais juste avoir les tracas d'avoir à tout restaurer car la baie de raid ne s'est pas réparée correctement.
Rob

Réponses:

18

Concevoir la fiabilité d'une baie de disques:

  1. Trouvez le taux d'URÉ de votre lecteur (les fabricants n'aiment pas parler de la défaillance de leurs lecteurs, vous devrez donc peut-être creuser pour le trouver. Il devrait être de 1/10 ^ X où X est d'environ 12-18).
  2. Décidez quel est un taux de risque acceptable pour vos besoins de stockage †. Il s'agit généralement d'un risque d'échec <0,5%, mais il peut être de plusieurs pour cent dans un stockage «à zéro» et peut être <0,1 pour les données critiques.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Pour les baies avec plus d'un disque de parité ou les miroirs avec plus d'une paire de disques dans le miroir, changez 1après les lecteurs dans le tableau le nombre de disques avec parité / miroir.

J'ai donc un ensemble de quatre disques WD Green de 1 To dans une baie. Ils ont un taux d'URÉ de 1/10 ^ 14. Et je les utilise comme stockage à gratter. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%risque d'échec de reconstruction de la baie après la mort d'un lecteur. Ils sont parfaits pour stocker mes fichiers indésirables, mais je n'y mets pas de données critiques.

† La détermination d'une défaillance acceptable est un processus long et compliqué. Il peut être résumé comme suit Budget = Risk * Cost. Donc , si un échec va coûter 100 $, et a 10% de chances de se produire alors vous devriez avoir un budget de 10 $ pour l' empêcher. Cela simplifie considérablement la tâche de déterminer le risque, les coûts de diverses pannes et la nature des techniques de prévention potentielles - mais vous avez l'idée. [Data Drives] = [Total Drives] - [Parity Drives]. Un miroir à deux disques (RAID1) et RAID5 a 1 lecteur de parité. Un miroir à trois disques (RAID1) et RAID6 a 2 lecteurs de parité. Il est possible d'avoir plus de disques de parité avec RAID1 et / ou des schémas personnalisés, mais atypiques.


Cette équation statistique comporte cependant ses mises en garde:

  • Ce taux URE est le taux annoncé et est généralement meilleur dans la plupart des lecteurs qui sortent de la chaîne de montage. Vous pourriez avoir de la chance et acheter un lecteur de l'ordre de grandeur supérieur à celui annoncé. De même, vous pourriez obtenir un lecteur qui meurt de mortalité infantile.
  • Certaines lignes de fabrication ont de mauvaises exécutions (où de nombreux disques dans l'exécution échouent en même temps), donc obtenir des disques à partir de différents lots de fabrication permet de répartir la probabilité d'échec simultané.
  • Les disques plus anciens sont plus susceptibles de mourir sous le stress d'une reconstruction.
  • Les facteurs environnementaux font des ravages:
    • Les disques qui sont souvent soumis à un cycle thermique sont plus susceptibles de mourir (par exemple, les allumer / éteindre régulièrement).
    • Les vibrations peuvent provoquer toutes sortes de problèmes - voir la vidéo sur YouTube de l' informatique criant sur une baie de disques .
  • "Il existe trois types de mensonges: les mensonges, les maudits mensonges et les statistiques" - Benjamin Disraeli
Chris S
la source
Le lecteur que j'ai pris / sorti / de l'appareil est un lecteur Samsung HD103SI 1 To. Je crois que les trois autres disques restants sont les mêmes. Le disque de remplacement provient d'un autre fabricant, je n'ai pas les détails en main.
Rob
Il semble que le taux pour ce disque soit de 1/10
Rob
1
Je viens de corriger les équations, l'exemple était correct, maintenant ils le sont tous les deux. Votre tableau serait 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. Vous avez un support à l'extérieur de l' ^3endroit où il devrait être à l'intérieur; et il devrait y avoir un zéro de plus dans cette chose 1/10 ^ 15.
Chris S
2
Un lecteur de 1 To représenterait 1000000000000 octets, ce qui correspond à un peu moins de 3% | 0,3% en fonction de votre taux URE.
user9517
1
@IanRingrose Ceci est statistiquement valide. J'ai déjà répondu à vos préoccupations spécifiques. Avez-vous autre chose à ajouter que ce qui a déjà été dit?
Chris S
9

La raison pour laquelle cet article existe est d'attirer l'attention sur les taux d'erreur binaires irrécupérables sur les disques durs. Plus précisément, vos disques «home PC» bon marché. Ils ont généralement une spécification d'usine de 1/10 ^ 14. Il s'agit d'environ 12,5 To de données, que si vous faites un RAID-5 avec des disques de 2 To ... vous frappez assez rapidement.

Cela signifie que vous devez soit:

  • utilisez des groupes RAID plus petits et acceptez un espace gaspillé plus important.
  • Utilisez RAID-6 et acceptez la pénalité d'écriture supplémentaire. (50% supérieur à RAID5)
  • Achetez des disques plus chers - la «qualité serveur» a une spécification UBER de 1/10 ^ 16, ce qui signifie que c'est un point discutable. (1,2 Pb est meilleur que 12,5 To)

Je suggère généralement que RAID-6 est la voie à suivre en général, mais cela vous coûtera des performances.

Sobrique
la source