Une configuration de disque RAID 4 peut-elle se bloquer si un seul disque dur tombe en panne? [fermé]

9

Je suis développeur web. Je n'ai pas beaucoup d'expérience en hardware. Pour cette raison, j'utilise des serveurs gérés.

Ce matin, l'un des disques de notre configuration est tombé en panne. Cependant, le site complet est tombé en panne. J'ai demandé à mon hébergeur ce qui s'était passé et il a répondu que le disque dur était tombé en panne de telle manière que le contrôleur RAID ne pouvait pas fonctionner correctement. La baie a été configurée en RAID 4.

Avez-vous déjà vu ça avant? C'est possible?

Merci pour toute aide sur ce gars. J'ai besoin de savoir si mon hébergeur est honnête avec moi.

Steve Rodrigue
la source
Si plusieurs disques d'une matrice meurent, le RAID échoue (bien que cela dépende de la configuration du RAID).
Rhys Evans
Pour résumer, votre fournisseur est un ****** et travaille à bon marché. Cela pourrait être parfaitement acceptable tant que vous, en tant que client, avez été averti que son infrastructure n'est pas tolérante aux pannes.
Luke404
Veuillez mettre à jour la question avec le type de raid (c.-à-d. Raid 0,1,4,5,6, etc.).
Trevor Boyd Smith

Réponses:

22

Il est plus probable qu'improbable que votre fournisseur utilise des disques durs qui ne sont pas destinés à être utilisés en RAID. Les disques SATA grand public normaux entrent dans cette catégorie.

Le problème probable est que le lecteur a commencé à rencontrer des erreurs de lecture non corrigibles (URE). Lorsque cela se produit dans un lecteur grand public, le lecteur se trouve là et réessaye l'opération de lecture (généralement pendant 30 à 60 secondes) jusqu'à ce qu'il abandonne. Le RAID attendra que le disque signale l'erreur (les 30-60) secondes. Par conséquent, une simple demande pour quelques secteurs peut facilement interrompre le serveur pendant que le lecteur défaillant effectue ces opérations de relance.

Les disques destinés aux matrices RAID ont soit une récupération après erreur limitée dans le temps (pour les disques SATA). TLER signale rapidement les défaillances aux contrôleurs, afin que le contrôleur puisse répondre intelligemment à ces défaillances (principalement de manière intelligente; avec un peu de chance). SCSI (SAS aussi) fonctionne quelque peu différemment. Le jeu de commandes SCSI permet au contrôleur de spécifier diverses limites d'effort de récupération sur les disques (MODE SELECT: RW ERR RECOVERY). Un contrôleur RAID doit configurer les disques pour qu'ils tombent rapidement en panne, le contrôleur peut alors tester si le lecteur pense qu'il fonctionne correctement avec la commande TUR, faire tomber le disque hors de la matrice s'il y a une condition de vérification.

Chris S
la source
Bonne explication.
sbrattla
11

Oui, cela est possible, même dans des scénarios où vous pensez que la baie aurait dû survivre à l'échec.

Quelques possibilités pour expliquer pourquoi un tableau échoue:

  • Plus de disques sont tombés en panne que ce que pourrait supporter le mode RAID. Par exemple:
    • RAID 0 (entrelacement) ne peut survivre à aucune panne de disque.
    • RAID 1 peut survivre aux pannes de tous les disques sauf un.
    • RAID 4/5 peut survivre à 1 panne de disque.
    • RAID 6 peut survivre à 2 pannes de disque.
    • RAID 10 peut survivre à la panne de jusqu'à 50% des disques, selon les disques qui tombent en panne.
  • Un bug dans le logiciel RAID ou le firmware du contrôleur.
  • Erreur utilisateur.
    • Quelqu'un a tiré trop de disques.
    • Quelqu'un a retiré un disque et ne l'a jamais remplacé, et un autre disque est tombé en panne par la suite.
    • La baie n'a pas été surveillée, ce qui a permis à plus de disques de tomber en panne que ce qui aurait pu survivre.
  • Les contrôleurs bon marché avec des disques grand public sont généralement connus pour échouer même dans des scénarios autrement survivables.
    • Un lecteur au niveau du consommateur tentera presque indéfiniment de lire un mauvais secteur jusqu'à ce qu'il obtienne une bonne lecture. Un contrôleur bon marché attendra presque indéfiniment qu'un tel disque renvoie un résultat. L'attente peut être si longue que le système d'exploitation abandonne. Au redémarrage, les disques ne répondent pas assez rapidement au contrôleur et la baie est supposée défaillante.
    • D'un autre côté, un disque de niveau entreprise abandonnera rapidement, permettant au contrôleur d'extraire les données d'un autre disque. En outre, un bon contrôleur marquera un lecteur qui prend trop de temps pour répondre comme étant défaillant et passer à autre chose.
long cou
la source
1
RAID 1 devrait survivre à la mort de tous les disques de la baie sauf un . Certes, la plupart des gens exécutent probablement des configurations RAID 1 à deux disques, ce qui signifie qu'il ne peut survivre qu'à la mort d'un seul disque, mais ce n'est pas inhérent à RAID 1.
un CVn du
Intéressant donc si 1 disque dans un RAID 10 échoue, vous devriez casser un autre disque car il ne survivra pas si un seul disque est cassé :-) Je pense que vous devriez éditer votre message.
FLY
@ MichaelKjörling bon point. J'ai édité mon message.
longneck
@FLY tu as raison, j'ai glissé sur ce point. édité.
longneck
RAID4 doit être RAID3. RAID3 est une répartition d'octets avec parité; RAID4 était une implémentation ECC nécessitant un grand nombre de disques que AFAIK n'a jamais été implémenté.
Dan est en train de jouer par Firelight
8

S'il s'agissait d'une implémentation RAID 0, alors certainement lorsqu'un seul disque tombe en panne, vous perdrez la baie et toutes les données qui l'accompagnent.

joeqwerty
la source
Il s'agit d'une implémentation RAID 4
Steve Rodrigue
11
hahaha - tu m'as presque eu là, qu'est-ce que c'est vraiment?
Chopper3
3
@ Chopper3 NetApp utilise RAID4. Ce n'est donc pas complètement inconnu, même si cela m'a aussi fait rire. C'est peut-être la façon dont l'hôte dit qu'il a un Filer NetApp ou quelque chose.
HopelessN00b
1
@SteveRodrigue Êtes-vous sûr que c'est RAID 4?
MDMarra
1
S'il s'agit bien de RAID4 et qu'un seul disque est tombé en panne, alors il devrait être possible d'installer un nouveau disque et de reconstruire la matrice, en principe au moins. Peut-être que l'hébergeur du site signifiait que l'un des lecteurs restants était en panne pendant qu'il essayait de faire cela?
user3490
2

J'ai vu des bogues de micrologiciel éliminer tout le RAID lorsqu'un disque devient défectueux ou lorsqu'il commence à signaler une défaillance imminente. Désolé, je n'ai rien de précis à vous montrer, mais oui, cela peut arriver. Pas dans le cadre de la spécification RAID, bien sûr, c'est définitivement un bug.

chutz
la source
1

Oui c'est possible. Ce n'est pas censé se produire, mais c'est certainement possible. Entrez les URE (erreur de lecture irrécupérable) et les défauts du contrôleur et les bogues du micrologiciel, etc.

Sans informations supplémentaires (que votre hôte ne vous donnera probablement pas), il n'est pas possible de dire définitivement d'une manière ou d'une autre, mais quiconque a travaillé avec de nombreuses baies RAID a eu des expériences où une baie entière a été perdue ou s'est écrasée quand elle ne devrait pas avoir.

(Et, en passant, RAID4 n'est pas un niveau RAID très couramment utilisé, mais devrait résister à la perte de n'importe quel disque . Cela ne veut pas dire qu'il le sera toujours, cependant.)

HopelessN00b
la source
1

J'ai eu de nombreuses pannes de disque dur où non pas la mécanique a échoué, mais l'électronique constituant l'interface de communication. En raison de leur petite taille, de nombreux composants électroniques sont très sensibles aux irrégularités électriques, même mineures (cela peut se produire lorsque de gros moteurs de climatisation à proximité sont allumés / éteints, etc. et que l'alimentation est un peu bon marché).

Lorsque les convertisseurs de puissance ou les condensateurs internes du lecteur (tampons de stockage d'énergie) s'épuisent, les signaux électriques générés au niveau des connecteurs externes du disque dur peuvent et vont s'écarter des spécifications. Étant donné que le lecteur est connecté au contrôleur via des fils de cuivre, et souvent dans les serveurs, de nombreux lecteurs partagent une connexion par câble pour faciliter l'installation et réduire l'encombrement, cela peut facilement perturber ou même détruire définitivement un certain nombre de composants adjacents.

Cela a très peu à voir avec les prix. Il est vrai que les contrôleurs et les lecteurs coûteux PEUVENT utiliser des pièces plus tolérantes aux conditions anormales ou avoir un meilleur blindage, et qu'avec des composants économiques, vous êtes plus susceptible d'obtenir des pièces de qualité inférieure. Mais j'ai régulièrement trouvé des condensateurs identiques sur un lecteur de 50 $ et un lecteur de 500 $. Et si un disque dur défectueux achemine directement 12 Volts de l'alimentation au connecteur SATA en raison d'un court-circuit, votre contrôleur RAID sera frit, quel que soit le nombre de chiffres du prix.

Ce n'est pas ce qui se passe habituellement, mais ce n'est certainement pas inconnu dans mon expérience.

Jost
la source
"souvent dans les serveurs, de nombreux disques partagent une connexion par câble" Pas dans les environnements SAS ou SATA modernes. Il est assez improbable du point de vue astronomique que votre scénario se soit produit ici; Je ne pense pas avoir jamais entendu parler de l'électronique d'un lecteur en train de mourir et de prendre d'autres composants avec. Alors que le 12v ferait certainement frire un contrôleur SATA ou SAS, les composants logiques sont très rarement connectés au 12v de toute façon, car la réduction de la tension de 12 à 3,3 ou moins est très compliquée par rapport aux sources 5v ou 3,3v. Je suis curieux de savoir où vous pourriez avoir la tête de ce genre de chose qui se passe; si vous êtes prêt à partager?
Chris S
1

Oui, je suppose que l'ensemble du raid peut échouer après une seule panne de disque. Le premier disque défectueux sera mis hors ligne par le contrôleur et le raid fonctionnera toujours correctement. Mais lorsque le disque défectueux est remplacé, le contrôleur commence à reconstruire le raid. S'il y a un problème de lecture latent non découvert sur l'un des autres lecteurs restants, une reconstruction du lecteur défaillant peut entraîner la mise hors ligne de plusieurs lecteurs (lorsque des problèmes de lecture sont découverts lors de la reconstruction du raid), ce qui provoque à nouveau le raid entier. échouer.

Pytagoras
la source
C'est pourquoi les matrices RAID doivent être nettoyées régulièrement pour détecter les problèmes de lecture ou d'écriture.
Chris S