Dois-je m'inquiéter d'une valeur SMART Hardware_ECC_Recovered élevée?

16

J'ai reçu un tel message dans /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Cela signifie-t-il que le disque tombe en panne et que je dois le remplacer? Où puis-je lire sur l'interprétation des résultats des tests SMART?

lexsys
la source

Réponses:

13

Selon Steve Gibson de la renommée de Spinrite , les valeurs SMART doivent être prises au fil du temps, et non comme des lectures instantanées. Cela signifie qu'une valeur de 47 n'est pas nécessairement mauvaise si la valeur est de 47 depuis des mois. Cependant, si la valeur était de 42 il y a une heure et qu'elle grimpe rapidement, cela signifie que le lecteur a du mal à accéder à une partie des données et pourrait bientôt ne plus pouvoir lire le secteur. En fonction de la valeur des données sur ce lecteur, vous souhaiterez peut-être le remplacer.

Dave Cheney
la source
+1 pour une excellente réponse et pour y ajouter. Si vous êtes vraiment concerné par Lexsys, je voudrais acheter une copie de spinrite et l'exécuter. Vous aurez besoin de votre système pour pouvoir démarrer à partir d'un CD, mais le système d'exploitation n'est pas pertinent. (Pour créer le CD de démarrage, vous aurez besoin de Windows ou d'un clone Windows)
Matt
Spinrite est livré avec une image .iso amorçable (freedos) que vous pouvez graver avec n'importe quel système d'exploitation actuel
Dave Cheney
grc.com/sr/spinrite.htm serait un meilleur endroit pour établir un lien avec
Brad Gilbert
2
L'exemple est faux! Voir la réponse de @ CesarB - pour la plupart des valeurs, augmenter c'est bien! Donc, s'il y en avait 42 il y a une heure, et maintenant c'est 47 - super. Mais pas l'inverse.
Volker Siegel
6

Une valeur élevée pour cet attribut est en fait assez bonne:

Le paramètre matériel ECC récupéré SMART indique le temps entre les erreurs corrigées ECC.

https://kb.acronis.com/content/9131

Robert Klemme
la source
2
Ajout de ce que je pense être la citation centrale.
Robert Klemme
Cela a du sens maintenant même si la ressource liée disparaît. Merci Robert.
poussins
4

Tout d'abord, des valeurs plus faibles sont pires pour SMART, pas des valeurs plus élevées (notez que la colonne de seuil est toujours inférieure à la valeur actuelle). Ainsi, une valeur croissante n'est pas une source de préoccupation. (Cette règle ne s'applique toutefois pas aux valeurs brutes.)

Les valeurs SMART ont tendance à osciller un peu (la vôtre peut être dans le bord entre 46 et 47, par exemple, donc même de petits changements pourraient la faire basculer vers l'autre valeur).

Votre smartctl -asortie montre que le pire que cette valeur ait été est de 45, il oscille donc légèrement au-dessus de la normale.

Pour plus d'informations, consultez Wikipedia: Attributs ATA SMART .

CesarB
la source
3

Gardez à l'esprit que même l'étude approfondie menée par Google a révélé qu'un grand nombre de pannes de disques n'étaient pas prédites par des erreurs SMART. Il est possible que ce que vous voyez soit parfaitement normal, mais comme chaque fabricant a des mesures différentes pour convertir les valeurs brutes en valeurs rapportées, il est difficile de dire avec certitude si votre lecteur subit de nombreuses erreurs ou non. Cependant, un nombre brut aussi grand me semble étrange.

Je recommanderais de lire tout le lecteur (dd ou rsync'ing sur un nouveau lecteur) et de vérifier les valeurs SMART au fur et à mesure. Si vous voyez ce nombre brut ou les valeurs rapportées, changez beaucoup, je commencerais à chercher à remplacer le lecteur.

jasonrm
la source
Huh. Ce serait assez cool d'avoir ZFS suivre les attributs SMART par rapport à ses propres modèles d'utilisation.
i336_
1

Rien de mal à cela.

Vous pouvez toujours courir

smartctl -t long /dev/yourdrive

Puis, après quelques heures, interrogez son résultat

smartctl -a /dev/yourdrive

juste pour être sûr.

cstamas
la source
1

L'ECC matériel IIRC récupéré est une correction d'erreur sur les lectures de disque, ce qui n'est pas inhabituel pour un disque, et ils codent les données avec des mécanismes de correction d'erreur pour cette raison précisément. Certains contrôleurs prennent également en charge les informations redondantes dans les secteurs de disque et ajoutent une autre couche de correction d'erreurs.

Comme l'indique Dave Cheney, les chiffres doivent être contrôlés au fil du temps. Des changements radicaux dans ces statistiques indiquent une panne de disque. Gardez également un œil sur les listes de défauts développés - si la liste des défauts développés commence à s'allonger ou que les statistiques SMART commencent à changer de manière significative, vous devez remplacer le lecteur de manière prophylactique.

ConcernedOfTunbridgeWells
la source
1
lol, à titre prophylactique
Dave Cheney