Remplacement des disques durs [fermé]

19

Je me demandais si c'était une bonne idée de remplacer un disque dur dans un serveur de base de données (assez) critique du système après un certain nombre d'années d'utilisation, avant qu'il ne meure.

Par exemple, je pensais à remplacer un disque dur après 3 ans d'utilisation. Étant donné que j'ai plusieurs disques durs sur plusieurs serveurs, je pourrais échelonner quels disques durs sont remplacés.

Est-ce une bonne idée ou les gens attendent-ils simplement l'échec?

Garfonzo
la source

Réponses:

33

Google a fait une étude sur les lecteurs de disque et a trouvé très peu de corrélation entre l'âge et l'échec du disque. Les tests SMART ne montrent pas non plus d'échecs.

Mes observations locales (> 500 serveurs) sont similaires. J'ai de nouveaux disques qui tombent rapidement en panne tandis que les anciens avancent toujours.

Ma règle générale est que si nous avons vu des problèmes de disque (SMART ou erreurs système), nous le remplaçons immédiatement. Sinon, les disques sont désactivés lorsque le serveur le fait.

Étude Google http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

jeffatrackaid
la source
C'était généralement ce que je pensais, mais je voulais voir ce que les autres faisaient. Merci
Garfonzo
2
Je suis d'accord. Nous constatons des taux d'échec beaucoup plus élevés avec les nouveaux disques SAS 2,5 pouces qu'avec les serveurs de 10 ans exécutant des disques SCSI 3,5 pouces 9 Go!
James O'Gorman
@ JamesO'Gorman Les processus de fabrication changent ... je me demande ce qui a été fait pour les nouveaux disques dans le cadre d'un "compromis" d'ingénierie.
Avery Payne
1
Microsoft Technet a également un article sur la tolérance aux pannes qui aborde brièvement la défaillance du disque dur / des composants mécaniques ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Ils parlent un peu de la "courbe de baignoire" mécanique les défaillances des composants ont tendance à suivre.
voretaq7
@AveryPayne Re nouveaux disques, notez que les disques 2,5 "ont des tolérances BEAUCOUP plus serrées - En conséquence, ce qui était autrefois une pente mécanique" acceptable "sur un disque 3,5" peut entraîner une défaillance catastrophique sur un disque 2,5 ". Voir aussi l'article TechNet J'ai lié la courbe de la baignoire - Les composants mécaniques souffrent d'une mortalité infantile élevée en général, puis sont relativement stables jusqu'à ce qu'ils finissent par mourir de "vieillesse". Les entraînements de 2,5 "sont toujours en territoire de" mortalité infantile "- par mon expérience pour au au moins 1 an de fonctionnement.
voretaq7
13

Non.

L'un des plus gros problèmes liés au remplacement d'un disque dur sur un serveur de production actif est que cela entraînera une reconstruction. Surtout si vous utilisez RAID5, et surtout si vous utilisez de gros disques, forcer une reconstruction crée un risque très important de défaillance irrécupérable. Le risque de perdre la baie lors d'une reconstruction est bien plus important que le risque de laisser en place un disque dur de 3 ans.

En prenant un exemple extrême, si vous remplacez successivement chaque disque dans une matrice RAID5 à 6 disques composée de disques de 2 To, votre risque théorique d'une erreur de lecture irrécupérable lors de l'une des reconstructions est de l'ordre de 58% (selon mes calculs sur la serviette; veuillez faire vos propres et comparer les notes). En d'autres termes: votre remplacement de disque "préventif" n'est, en effet, rien de moins qu'un acte de sabotage.

La seule fois où j'envisagerais de rafraîchir des disques sur un ancien serveur serait au cours de sa "remise à neuf", par exemple après avoir été mis hors service d'une tâche et avant de le remettre en service avec un nouveau rôle. Même à ce stade, les exigences de capacité et de performances seraient bien plus importantes que l'âge des disques.

Skyhawk
la source
1
+1 pour déclencher la reconstruction
gregmac
Pouvez-vous expliquer pourquoi le risque est de 58%? Si le disque est patrouillé régulièrement, pourquoi mettrait-il davantage l'accent sur une récupération?
Mircea Vutcovici
@MirceaVutcovici car dans un arrangement RAID-5, tous les disques seront constamment actifs pendant la reconstruction par rapport à la recherche aléatoire occasionnelle ici ou là. En d'autres termes, la «charge» sur tous les disques augmente considérablement et, ce faisant, le risque de déclencher un deuxième disque défectueux augmente également.
Avery Payne
@Avery Payne Je sais que vous insistez davantage sur les disques lors d'une reconstruction. J'essaie de comprendre pourquoi une reconstruction mettrait davantage les disques à l'épreuve qu'un contrôle de cohérence.
Mircea Vutcovici
@MirceaVutcovici Le chiffre exact (et comment faire le calcul) est discutable, mais l'essentiel est que vous devez lire 10 téraoctets de données six fois , sans l'avantage d'un disque de parité pour corriger les erreurs de lecture, afin d'effectuer la six reconstructions. La probabilité de lire 60 téraoctets de données, sans aucune erreur, n'est pas en votre faveur.
Skyhawk
3

Je ne l'ai pas vu. Nous gardons les serveurs sous garantie jusqu'à leur mise hors service - 5 ans. Le RAID 5 standard vous permet de survivre à une panne de disque, nous gardons donc quelques disques à portée de main afin de pouvoir commencer une reconstruction immédiatement et sur les serveurs critiques, nous incluons un disque de rechange ou passez au RAID 10.

Si vous avez remarqué que plusieurs disques tombent en panne récemment sur un serveur, vous pouvez avoir un problème de fond de panier. Il pourrait également y avoir de nouvelles vibrations ou de la poussière provenant de la construction à proximité.

Paul Ackerman
la source
Ce n'est pas tout à fait vrai. si un grand nombre de vos disques proviennent du même lot, vous courez un risque beaucoup plus élevé d'échec simultané lorsque vous ajoutez le stress d'une reconstruction. Comme indiqué dans une autre réponse, l'augmentation de la taille de RAID5 entraîne une augmentation des probabilités d'un URE pendant la reconstruction, ce qui place votre baie sous le seuil de validité raid5.
Magellan