Combien de réallocations de secteur SMART indiquent des problèmes?

17

J'ai une appliance NAS qui a un peu plus d'un mois. Il est configuré pour m'envoyer des alertes par e-mail générées à partir des données SMART des disques durs. Après une journée, l'un des disques durs a signalé qu'un secteur avait mal tourné et avait été réaffecté. Au cours de la première semaine, ce nombre est passé à six secteurs au total pour le disque dur en question. Après un mois, le nombre s'élève à neuf secteurs réaffectés. Le taux semble définitivement ralentir.

Le NAS est configuré avec six disques de 1,5 To dans une configuration RAID-5. Avec de tels disques de grande capacité, je m'attendais à ce qu'un secteur tombe en panne de temps en temps, donc je n'étais pas inquiet lorsque les premiers secteurs ont été déplacés. Cela me dérange cependant qu'aucun des autres disques ne signale de problème.

À quel taux de délocalisations, ou nombre total de délocalisations, devrais-je commencer à m'inquiéter pour la santé du lecteur? Cela peut-il varier en fonction de la capacité du disque?

Jeremy
la source
gentil, Jeremy. l'un des meilleurs sur serverfault comme beaucoup d'autres ici le trouveront utile et il n'est pas facile de trouver une réponse. mérite certainement plus de +2. vous voudrez peut-être reformuler la question afin qu'elle ne soit pas spécifique à NetGear, mais au stockage en général cependant
nom d'utilisateur
Merci pour les commentaires, j'ai apporté les modifications que vous avez suggérées et mis à jour la situation.
Jeremy
1
Je remplace les disques dans un secteur réaffecté. Vous devez vous attendre à zéro sur la durée de garantie du lecteur. Les fabricants ont toujours honoré la garantie de ces disques.
Michael Hampton

Réponses:

13

Les entraînements, comme la plupart des composants, ont un taux de défaillance de la courbe de la baignoire. Ils échouent beaucoup au début, ont un taux d'échec relativement faible au milieu, puis échouent beaucoup lorsqu'ils atteignent la fin de leur vie.

Tout comme le lecteur entier suit cette courbe, des zones particulières du disque suivront également cette courbe. Vous verrez beaucoup de réallocations de secteur au début de l'utilisation du lecteur, mais cela devrait diminuer. Lorsque le lecteur commence à tomber en panne en fin de vie, il commencera à perdre de plus en plus de secteurs.

Vous n'avez pas à vous soucier de 6 (selon le lecteur - consultez le fabricant), mais vous devez regarder et voir la fréquence de chaque nouvelle réaffectation. Si la détérioration s'accélère ou reste la même, inquiétez-vous. Sinon, cela devrait être bien après la période de rodage initiale.

-Adam

Adam Davis
la source
Un petit point: les lecteurs échoueront LONGTEMPS avant leur MTBF. Je pense que vous voulez dire qu'ils échouent beaucoup à l'approche de leur durée de vie prévue.
Eddie
5
Google n'a-t-il pas complètement démenti la théorie de la "courbe de la baignoire"?
Insyte
20

En relisant l'article de Google sur le sujet, " Tendances des échecs dans une population de gros disques ", je pense que je peux affirmer sans risque que la réponse d'Adam est incorrecte. Dans leur analyse d'une population extrêmement massive de disques, environ 9% avaient un nombre de réallocations non nul. La citation révélatrice est la suivante:

Après leur première réallocation, les disques sont plus de 14 fois plus susceptibles de tomber en panne dans les 60 jours que les disques sans nombre de réallocations, ce qui fait que le seuil critique pour ce paramètre est également un.

C'est encore plus intéressant lorsqu'il s'agit de "réallocations hors ligne", qui sont des réallocations découvertes lors du nettoyage en arrière-plan du lecteur, et non lors d'opérations d'E / S réellement demandées. Leur conclusion:

Après la première réallocation hors ligne, les disques ont 21 fois plus de chances de tomber en panne dans les 60 jours que les disques sans réallocation hors ligne; un effet qui est encore plus drastique que les réaffectations totales.

Ma politique sera désormais que les disques dont le nombre de réallocations n'est pas nul doivent être programmés pour être remplacés.

Insyte
la source
C'est intéressant, j'avais entendu parler de ce document, mais je devrai peut-être le relire. FWIW, 4 des 6 disques de mon NAS ont des secteurs réaffectés. Merci d'avoir répondu.
Jeremy
3

Différents lecteurs ont probablement des paramètres différents. Sur un lecteur que j'ai vérifié pour la dernière fois, il s'agissait d'un disque de 1 To de série d'entreprise d'un fournisseur, il y avait 2048 secteurs réservés pour la réaffectation.

Vous pouvez estimer le nombre de secteurs réservés à la recherche dans le rapport SMART sur un lecteur qui a un nombre différent de zéro de secteurs réaffectés. Considérez un rapport sur un disque défectueux ci-dessous.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Ici, 95% de sa capacité réservée a été utilisée, soit 1955 secteurs. Par conséquent, la capacité initiale était d'environ 2057. En fait, c'est 2048, la différence est due à l'erreur d'arrondi.

Le SMART transforme le lecteur dans un état de défaillance lorsque le nombre de secteurs réaffectés atteint un certain seuil. Pour le lecteur en question, ce seuil est fixé à 64% de la capacité réservée. Cela représente environ 1310 secteurs remappés.

Cependant, les secteurs réservés ne se situent pas dans un intervalle continu. Au lieu de cela, ils sont divisés en plusieurs groupes, chaque groupe étant utilisé pour le remappage des secteurs d'une partie spécifique du disque. Cette opération est effectuée pour conserver les données locales dans une zone du disque.

L'inconvénient de la localité est que le disque peut avoir de nombreux secteurs réservés. Pourtant, un domaine peut déjà manquer de capacité réservée. Dans ce cas, le comportement dépend du firmware. Sur un disque, nous l'avons observé passer dans un état ÉCHEC et se bloquer lorsqu'une erreur se produit dans une partie qui n'est plus protégée.

Dmitri Chubarov
la source
Comment avez-vous déterminé qu '"il y avait 2048 secteurs réservés à la réaffectation"?
AJ.
Peut-être que 2047 est le nombre maximum de secteurs réaffectables. Un de mes disques avait exactement 2047 lorsqu'il a été acheté sur eBay pour "nouveau", qui est 0x7FF, également b11,111,111,111. Aller en 2048 ferait perdre un peu plus.
davide
2

Vous voudrez peut-être exécuter un auto-test long SMART, si le lecteur le prend en charge. Cela peut vous donner plus d'informations sur l'état du lecteur. Si votre NAS ne peut pas faire cela, et si vous pouvez retirer le lecteur ou éteindre le NAS pendant quelques heures, vous pouvez faire le long auto-test avec le disque dur branché sur une autre machine.

Eddie
la source
1

Quand un lecteur ce nouveau comportement se comporte comme ça, ce n'est pas du tout digne de confiance!

Renvoyez-le dès que possible et obtenez un disque de remplacement.

Nils-Anders Nøttseter
la source
1

Différents fabricants ont différents nombres de "pertes acceptables" (même idée qu'avec les moniteurs et les mauvais pixels). Vérifiez auprès du fabricant du variateur pour connaître sa norme.

Cela ressemble à une mauvaise tendance ...

Brian Knoblauch
la source
-1

Western Digital est particulièrement fier de sa technologie qui récupère le mauvais secteur en un temps acceptable au lieu de geler le disque placé en RAID, son nom TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). Le temps est généralement de 5 à 7 secondes.

Comme je l'ai trouvé sur le Web, il existe des disques durs WD avec option désactivée, mais certains peuples ont activé cette fonctionnalité sur des disques WD verts bon marché, puis les ont placés en RAID.

L'utilitaire WDTLER a été supprimé du site de support WD mais peut être facilement découvert via Google.

PS J'utilise cet utilitaire uniquement pour lire l'état et je n'utilise pas RAID maintenant :)


la source