Je suis développeur web. Je n'ai pas beaucoup d'expérience en hardware. Pour cette raison, j'utilise des serveurs gérés.
Ce matin, l'un des disques de notre configuration est tombé en panne. Cependant, le site complet est tombé en panne. J'ai demandé à mon hébergeur ce qui s'était passé et il a répondu que le disque dur était tombé en panne de telle manière que le contrôleur RAID ne pouvait pas fonctionner correctement. La baie a été configurée en RAID 4.
Avez-vous déjà vu ça avant? C'est possible?
Merci pour toute aide sur ce gars. J'ai besoin de savoir si mon hébergeur est honnête avec moi.
Réponses:
Il est plus probable qu'improbable que votre fournisseur utilise des disques durs qui ne sont pas destinés à être utilisés en RAID. Les disques SATA grand public normaux entrent dans cette catégorie.
Le problème probable est que le lecteur a commencé à rencontrer des erreurs de lecture non corrigibles (URE). Lorsque cela se produit dans un lecteur grand public, le lecteur se trouve là et réessaye l'opération de lecture (généralement pendant 30 à 60 secondes) jusqu'à ce qu'il abandonne. Le RAID attendra que le disque signale l'erreur (les 30-60) secondes. Par conséquent, une simple demande pour quelques secteurs peut facilement interrompre le serveur pendant que le lecteur défaillant effectue ces opérations de relance.
Les disques destinés aux matrices RAID ont soit une récupération après erreur limitée dans le temps (pour les disques SATA). TLER signale rapidement les défaillances aux contrôleurs, afin que le contrôleur puisse répondre intelligemment à ces défaillances (principalement de manière intelligente; avec un peu de chance). SCSI (SAS aussi) fonctionne quelque peu différemment. Le jeu de commandes SCSI permet au contrôleur de spécifier diverses limites d'effort de récupération sur les disques (MODE SELECT: RW ERR RECOVERY). Un contrôleur RAID doit configurer les disques pour qu'ils tombent rapidement en panne, le contrôleur peut alors tester si le lecteur pense qu'il fonctionne correctement avec la commande TUR, faire tomber le disque hors de la matrice s'il y a une condition de vérification.
la source
Oui, cela est possible, même dans des scénarios où vous pensez que la baie aurait dû survivre à l'échec.
Quelques possibilités pour expliquer pourquoi un tableau échoue:
la source
S'il s'agissait d'une implémentation RAID 0, alors certainement lorsqu'un seul disque tombe en panne, vous perdrez la baie et toutes les données qui l'accompagnent.
la source
J'ai vu des bogues de micrologiciel éliminer tout le RAID lorsqu'un disque devient défectueux ou lorsqu'il commence à signaler une défaillance imminente. Désolé, je n'ai rien de précis à vous montrer, mais oui, cela peut arriver. Pas dans le cadre de la spécification RAID, bien sûr, c'est définitivement un bug.
la source
Oui c'est possible. Ce n'est pas censé se produire, mais c'est certainement possible. Entrez les URE (erreur de lecture irrécupérable) et les défauts du contrôleur et les bogues du micrologiciel, etc.
Sans informations supplémentaires (que votre hôte ne vous donnera probablement pas), il n'est pas possible de dire définitivement d'une manière ou d'une autre, mais quiconque a travaillé avec de nombreuses baies RAID a eu des expériences où une baie entière a été perdue ou s'est écrasée quand elle ne devrait pas avoir.
(Et, en passant, RAID4 n'est pas un niveau RAID très couramment utilisé, mais devrait résister à la perte de n'importe quel disque . Cela ne veut pas dire qu'il le sera toujours, cependant.)
la source
J'ai eu de nombreuses pannes de disque dur où non pas la mécanique a échoué, mais l'électronique constituant l'interface de communication. En raison de leur petite taille, de nombreux composants électroniques sont très sensibles aux irrégularités électriques, même mineures (cela peut se produire lorsque de gros moteurs de climatisation à proximité sont allumés / éteints, etc. et que l'alimentation est un peu bon marché).
Lorsque les convertisseurs de puissance ou les condensateurs internes du lecteur (tampons de stockage d'énergie) s'épuisent, les signaux électriques générés au niveau des connecteurs externes du disque dur peuvent et vont s'écarter des spécifications. Étant donné que le lecteur est connecté au contrôleur via des fils de cuivre, et souvent dans les serveurs, de nombreux lecteurs partagent une connexion par câble pour faciliter l'installation et réduire l'encombrement, cela peut facilement perturber ou même détruire définitivement un certain nombre de composants adjacents.
Cela a très peu à voir avec les prix. Il est vrai que les contrôleurs et les lecteurs coûteux PEUVENT utiliser des pièces plus tolérantes aux conditions anormales ou avoir un meilleur blindage, et qu'avec des composants économiques, vous êtes plus susceptible d'obtenir des pièces de qualité inférieure. Mais j'ai régulièrement trouvé des condensateurs identiques sur un lecteur de 50 $ et un lecteur de 500 $. Et si un disque dur défectueux achemine directement 12 Volts de l'alimentation au connecteur SATA en raison d'un court-circuit, votre contrôleur RAID sera frit, quel que soit le nombre de chiffres du prix.
Ce n'est pas ce qui se passe habituellement, mais ce n'est certainement pas inconnu dans mon expérience.
la source
Oui, je suppose que l'ensemble du raid peut échouer après une seule panne de disque. Le premier disque défectueux sera mis hors ligne par le contrôleur et le raid fonctionnera toujours correctement. Mais lorsque le disque défectueux est remplacé, le contrôleur commence à reconstruire le raid. S'il y a un problème de lecture latent non découvert sur l'un des autres lecteurs restants, une reconstruction du lecteur défaillant peut entraîner la mise hors ligne de plusieurs lecteurs (lorsque des problèmes de lecture sont découverts lors de la reconstruction du raid), ce qui provoque à nouveau le raid entier. échouer.
la source