Taux d'échec élevé des gros disques?

24

J'ai récemment déployé un serveur avec des disques 5x 1 To (je ne mentionnerai pas leur marque, mais c'était l'un des deux grands). J'ai d'abord été mis en garde contre l'obtention de disques de grande capacité, car un ami m'a informé qu'ils avaient un MTBF très faible, et je ferais mieux d'obtenir plus de disques de plus petite capacité car ils ne sont pas `` poussés à la limite '' en termes de ce que le la technologie peut gérer.

Depuis lors, trois des cinq disques sont tombés en panne. Heureusement, j'ai pu remplacer et reconstruire la baie avant que le prochain disque ne tombe en panne, mais cela m'inquiète beaucoup.

Quelles sont vos pensées? Je viens de les mettre dans un mauvais lot? Ou les disques plus récents / de plus grande capacité sont-ils plus susceptibles de tomber en panne que les disques éprouvés?

Mark Henderson
la source
2
Pourquoi ne mentionnez-vous pas la marque? Je suppose que votre lot était de 7200,11 cudas qui sont connus pour avoir une tendance à la mort précoce.
Dani
En fait, ils étaient des Digitals occidentaux ...
Mark Henderson
Juste pour mémoire, je les ai tous repris et j'en ai eu de nouveaux, et ils fonctionnent depuis deux mois maintenant sans aucun problème.
Mark Henderson
J'ai eu une expérience similaire. 16 disques de 1,5 To. Au cours des 4 premiers mois, 4 durs ont échoué. Au cours des trois années suivantes, un logiciel a échoué.
David Schwartz

Réponses:

19

Vous avez probablement un mauvais lot. Je suis nerveux à l'idée de déployer des tableaux construits à partir de disques du même lot pour cette raison - ils ont probablement une durée de vie similaire, ce qui rend les remplacements potentiellement très excitants en cas d'échec.

Il n'est pas impossible qu'il y ait un défaut de conception avec les disques, c'est définitivement arrivé auparavant; Cependant, Internet regorge généralement de plaintes concernant le lecteur s'il y a vraiment quelque chose qui ne va pas, contrairement au bruit de fond habituel que vous trouverez sur quoi que ce soit.

David Mackintosh
la source
6
+1 Essayez d'atténuer vos achats, de vous approvisionner auprès de différents marchands ou de mélanger les marques afin d'y remédier.
Rob Allen
Ou vous pouvez l'atténuer en «gravant» les disques provenant du même endroit au même moment. Exécutez un programme intensif en écriture contre eux pendant plusieurs heures / jours; échelonner les durées pour simuler un vieillissement disparate. J'ai créé un programme simple appelé DriveTest qui écrit des données pseudo-aléatoires puis les relit et vérifie afin de "graver" et de faire un simple bureau de test simultanément. Cette astuce n'est pas recommandée pour les SSD.
rkagerer
13

Il est difficile de répondre à cette question, sauf si vous disposez des ressources d'une grande organisation. Voir les recherches de Google sur les pannes de disque dur .

Lors d'un achat important de disques, je déterminerai la taille approximative du disque avec le coût par octet le plus bas, qui est généralement d'une génération plus ancienne que la dernière. Il est donc logique qu'ils améliorent la fiabilité de cette génération.

Knox
la source
1
1,5 à 2 To est le bord saillant en ce moment, donc 1 To ne répondrait-il pas à vos critères? Ils sont assez bon marché.
Mark Ransom
Très bon point.
Knox
10

Plus de plateaux + plus de têtes équivaut à plus de chances d'échec.

Prenez deux disques durs WD courants

640 Go = deux plateaux
1 To = trois plateaux

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Ce plateau supplémentaire = plus de bruit, plus de consommation d'énergie, plus de chaleur, un temps de préparation plus lent, plus sensible aux chocs et plus de vibrations.

S'ils faisaient le même design de lecteur avec un seul plateau, il aurait des spécifications encore meilleures. Dans ce cas, il s'agit de disques grand public mais ce sont des disques haut de gamme grand public avec le double de cache et une garantie de 5 ans. Vous verrez des mathématiques similaires si vous examinez attentivement la documentation sur n'importe quelle marque ou style de disque dur traditionnel (plateaux tournants). C'est purement une question de physique que plus de plateaux rendent un lecteur moins fiable.

Jeff Hengesbach avait également raison quand il a dit

La principale préoccupation des «gros» disques est le temps de reconstruction en cas de panne. Plus le disque est grand, plus la reconstruction est longue, plus la fenêtre pour une panne de disque supplémentaire et une perte potentielle de la baie est grande. Avec les «gros» disques, la valeur commerciale de la disponibilité devrait déterminer un niveau de risque acceptable (perte de matrice) qui déterminera votre sélection de niveau RAID et le nombre de disques (plus de disques = plus de chances de panne de disque).

ajouter une petite dose de Graeme Perrow

Un lecteur avec cinquante millions de secteurs a dix fois plus de chances d'avoir un mauvais secteur qu'un lecteur avec cinq millions de secteurs. Je suppose que le taux d'échec parmi les gros disques et les petits disques est le même ici, ce qui n'est probablement pas une bonne hypothèse

Plus de plateaux = mauvais
Plus d'espace de stockage est un sac mixte. Les avantages et les inconvénients sont nombreux.
Plus de secteurs sont vraiment plus de risques d'erreurs. Pas nécessairement linéaire mais certainement un facteur.

À moins que vous ayez besoin de plus d'espace que de fiabilité, je vous suggère de vous en tenir à des disques à un ou deux disques. Il faut de la recherche et, dans certains cas, de la chance de savoir ce que vous obtiendrez lors de la commande de disques, car certains fabricants évitent non seulement de publier le nombre de plateaux, mais ils peuvent même vendre plus d'un disque sous le même numéro de pièce.

Prenons par exemple le WD3200AAKS, il existe une version à plateau unique de 320 Go et une version à double plateau de 320 Go (160 Go x 2). En plus de cela, plusieurs étiquettes et boîtiers de lecteur sont utilisés, vous ne pouvez donc pas facilement regarder le lecteur et savoir quel plateau est à l'intérieur. La seule façon de savoir est de rechercher en ligne pour savoir que les WD3200AAKS-00B3A0 et WD3200AAKS-75VYA0 vous disent quel est le plateau unique, mais aucun détaillant ne vous dira ce que vous obtiendrez.

pplrppl
la source
1
Sensationnel. Voilà des trucs en profondeur! Merci! Je n'avais même pas considéré le nombre de pièces mobiles (plateaux) auparavant.
Mark Henderson
3

Je crois qu'un taux d'échec supérieur à la normale est révélateur de toute nouvelle technologie. On m'a toujours dit de ne jamais acheter la première année modèle d'une voiture, attendez qu'ils résolvent les bugs. Je dirais que la même chose vaut probablement pour beaucoup d'autres choses, y compris les disques durs.

Logan
la source
1
Je peux attester de toute l'analogie avec la voiture (les analogies avec la voiture ne s'égarent jamais, n'est-ce pas?). J'avoue que j'étais pressé et que je n'ai pas fait de recherche du tout correctement, et j'en paie le prix maintenant!
Mark Henderson
3

Je ne suis pas sûr qu'il soit juste de dire que les «gros» disques ont un MTBF plus élevé ou non. J'ai un grand système de nom avec une poignée de disques de 750 Go et au cours des 2+ dernières années, aucun n'a échoué (750 était "gros" il y a 2 ans). Mais je connais également un grand système de nom qui a été construit lorsque 250 Go était gros et cette baie est tombée plusieurs fois. Le débat sur le MTBF est une sorte de guerre sainte.

La principale préoccupation des «gros» disques est le temps de reconstruction en cas de panne. Plus le disque est grand, plus la reconstruction est longue, plus la fenêtre pour une panne de disque supplémentaire et une perte potentielle de la baie est grande. Avec les «gros» disques, la valeur commerciale de la disponibilité devrait déterminer un niveau de risque acceptable (perte de matrice) qui déterminera votre sélection de niveau RAID et le nombre de disques (plus de disques = plus de chances de panne de disque).

Le SATA / RAID professionnel a progressé au cours des dernières années. Je ne pense pas que les grands noms l'offriraient s'ils savaient que ce serait un problème de support majeur ou une source de clientèle déçue. Je serais curieux de connaître votre fiabilité à l'avenir maintenant que vous avez remplacé une partie du lot d'origine.

Jeff Hengesbach
la source
1

Sont-ils tous sur le même ordinateur ou contrôleur de disque? Vous avez dit que vous deviez reconstruire la baie. Si tel est le cas, il se peut que quelque chose soit défectueux avec le contrôleur, l'alimentation ou la mémoire . Sinon, je devinerais également un lot de disques défectueux. En outre, il peut y avoir un problème de compatibilité avec les lecteurs particuliers que vous utilisez avec ce contrôleur particulier.

De plus, je me demande quand les gens disent que les disques plus gros ont un MTBF plus élevé comment cela est calculé. Disons que vous avez des disques de 2x250 Go et 1x500 Go. Peut-être que c'est naïf, mais le lecteur qui contient deux fois plus de données ne pourrait-il pas échouer? Je suppose que je ne sais pas si MTBF inclut une mauvaise lecture ou une mauvaise écriture, ou si cela signifie que le disque est cassé mécaniquement. Est-ce que quelqu'un sait s'il existe une norme industrielle stricte et une définition de MTBF pour les disques durs?

Kyle Brandt
la source
1

Voici quelques points que je voudrais vérifier: 1) Les numéros de série sur les disques sont-ils assez proches? Si c'est le cas, vous pourriez avoir un lot défectueux 2) Comment est l'environnement dans lequel votre serveur vit? Avez-vous récemment rencontré des problèmes avec un autre matériel? 3) Les disques sont-ils des disques Seagate Barracuda? Il y a des problèmes avec ces disques. Voir cet article du monde informatique à ce sujet. 4) Ces disques faisaient-ils partie d'un système? ou les avez-vous achetés vous-même? Si vous avez acheté des disques OEM, il n'y a aucun moyen de s'assurer que les disques ont été manipulés avec soin avant de les acheter.

J'ai personnellement eu une chance incroyable avec les disques durs. Je n'ai eu que deux disques en panne sur moi. Un seul de ces échecs se trouvait sur un lecteur que j'utilisais réellement. Cependant, tout autour de moi, j'ai vu beaucoup de gens perdre des données sur les disques durs.

cyberkni
la source
Hmm, oui, ils sont tous très proches, mais ce sont des WD, pas des Seagates, et oui, c'étaient des disques OEM ... quelques choses que je n'avais pas envisagées là-dedans ...
Mark Henderson
1

Le taux d'échec plus élevé des gros disques pourrait simplement être fonction de la taille des disques. Un lecteur avec cinquante millions de secteurs a dix fois plus de chances d'avoir un mauvais secteur qu'un lecteur avec cinq millions de secteurs. Je suppose que le taux de panne parmi les gros disques et les petits disques est le même ici, ce qui n'est probablement pas une bonne hypothèse - comme quelqu'un l'a dit, le fait que les disques de téraoctets soient encore relativement nouveaux, ils ont probablement un taux de défaillance plus élevé pour commencer avec.

Dans votre cas, cela ressemble à un mauvais lot de disques.

Graeme Perrow
la source
1

Si vous avez acheté tous les disques en même temps au même endroit, il est possible qu'ils proviennent tous d'un seul lot aléatoire.

Lors de la mise en place d'une matrice RAID, je recommande généralement de mélanger un peu les disques, c'est-à-dire un mélange de fabricants ou au moins de disques de différents fournisseurs (pour réduire le risque que tous les disques proviennent d'un mauvais lot).

Une autre recommandation que je ferais est d'utiliser des disques plus petits si possible (c'est-à-dire que vous avez de l'espace physique pour les disques et les ports de contrôleur pour les suspendre), donc au lieu d'un volume RAID 1 ou deux disques 1 To ont un RAID 10 de quatre unités 500 Go. De cette façon, lorsqu'un disque devient défectueux, vous reconstruisez uniquement une petite baie qui fait partie d'une plus grande baie au lieu de reconstruire la totalité de la baie (en réduisant la durée pendant laquelle la baie n'est pas complète), et cela offre également un peu plus de redondance (dans quatre des six des scénarios "deux disques tombent en panne en même temps", une matrice RAID10 à 4 disques durera). Vous pouvez faire de même en combinant des baies R5 plus petites dans une baie R50 si cela est pris en charge par votre contrôleur / logiciel RAID.

Je suis peut-être trop paranoïaque, mais je me méfierais de faire confiance à 1 To de données sur un seul disque, même si ce disque fait partie d'un réseau redondant.

Évidemment, il y a des contraintes physiques en jeu qui peuvent rendre la technique peu pratique pour vous, les contraintes de consommation d'énergie aussi, donc YMMV. Comme "par exemple" quand une matrice ou des matrices n'est pas pratique: je préfère avoir quatre disques comme R10 dans l'un de nos serveurs ici à la place des disques plus gros dans une matrice R1, mais il n'a pas physiquement de place , l'achat / la construction d'une baie externe était hors budget et nous ne pouvions pas utiliser l'espace sur une baie existante car les données devaient être physiquement séparées de toutes les autres données en raison des exigences de protection des données.

David Spillett
la source
1

Quelqu'un a fait une étude très détaillée sur ce problème des disques plus gros. Cela a à voir avec le taux d'erreur binaire restant constant même si la taille du disque a augmenté, plus le temps plus long nécessaire pour reconstruire les disques plus gros. Les deux se combinent pour mettre un 2e échec pendant la reconstruction dans le domaine de la réalité. J'irais avec des disques de 500 Go ou moins sur des matrices RAID.

bobcov
la source
1

Utilisez toujours des disques durs de plus petite capacité pour une utilisation en production. Jamais vérifié la physique derrière, mais les disques plus petits ont tendance à tomber en panne moins souvent. C'est ce que tout le monde m'a toujours dit.

Alakdae
la source
0

Avez-vous créé une matrice avec des disques provenant tous du même lot et tous expédiés par le même fournisseur? On m'a dit que c'était une mauvaise chose à faire ...

thijs
la source
0

Considérez RAID-6. Le risque d'erreur de lecture lors d'une reconstruction RAID-5 est très réel. Ou RAID-Z avec ZFS.

Brian Carlton
la source