Pourquoi différents fabricants ont-ils une valeur SMART différente?

23

Tout d'abord, je pense que tout le monde sait que les disques durs échouent beaucoup plus que les fabricants ne le reconnaissent . Google a fait une étude qui indique que certains attributs de données brutes que l'état SMART des rapports des disques durs peut avoir une forte corrélation avec la future panne du disque.

Nous constatons, par exemple, qu'après leur première erreur d'analyse, les disques sont 39 fois plus susceptibles de tomber en panne dans les 60 jours que les disques sans ces erreurs. Les premières erreurs dans les réallocations, les réallocations hors ligne et les nombres probatoires sont également fortement corrélées à des probabilités d'échec plus élevées. Malgré ces fortes corrélations, nous constatons que les modèles de prédiction de défaillance basés sur les seuls paramètres SMART sont susceptibles d'être sévèrement limités dans leur précision de prédiction, étant donné qu'une grande partie de nos disques défectueux n'ont montré aucun signal d'erreur SMART.

Seagate semble essayer de masquer ces informations sur leurs disques en affirmant que seul leur logiciel peut déterminer avec précision l'état précis de leur disque et que leur logiciel ne vous dira pas les valeurs de données brutes pour les attributs SMART. Western Digital n'a fait aucune réclamation à ma connaissance, mais leur outil de rapport d'état ne semble pas non plus rapporter les valeurs des données brutes.

J'ai utilisé HDtune et smartctl de smartmontools afin de rassembler les valeurs de données brutes pour chaque attribut. J'ai trouvé qu'en effet ... je compare des pommes à des oranges en ce qui concerne certains attributs. J'ai constaté par exemple que la plupart des disques Seagate signalent qu'ils ont plusieurs millions d'erreurs de lecture, tandis que Western Digital 99% du temps affiche 0 pour les erreurs de lecture. J'ai également constaté que Seagate signalera plusieurs millions d'erreurs de recherche tandis que Western Digital semble toujours signaler 0.

Q : Comment normaliser ces données? Seagate produit-il des millions d'erreurs alors que Western Digital n'en produit aucune? L'article de Wikipedia sur statut SMART indique que les fabricants ont différentes façons de signaler ces données.

Voici mon hypothèse:

Je pense avoir trouvé un moyen de normaliser (est-ce le bon terme?) Les données.

Les disques Seagate ont un attribut supplémentaire que les disques Western Digital n'ont pas (ECC matériel récupéré). Lorsque vous soustrayez le nombre d'erreurs de lecture du nombre récupéré ECC, vous vous retrouverez probablement avec 0. Cela semble être équivalent au nombre d'erreurs de lecture signalé par Western Digitals. Cela signifie que Western Digital ne signale que les erreurs de lecture qu'il ne peut pas corriger tandis que Seagate compte toutes les erreurs de lecture et vous indique le nombre de celles qu'il a pu corriger.

J'avais un lecteur Seagate où le nombre d'erreurs de lecture était inférieur au nombre d'ECC récupéré et j'ai remarqué que beaucoup de mes fichiers devenaient corrompus. C'est ainsi que j'ai formulé mon hypothèse. Les millions d'erreurs de recherche que Seagate produit sont toujours un mystère pour moi.

Veuillez confirmer ou corriger mon hypothèse si vous avez des informations supplémentaires.

Voici l'état intelligent de mon lecteur numérique occidental pour que vous puissiez voir de quoi je parle:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Edit: Voici le disque Seagate dont je parlais qui causait la corruption de données. Ces données proviennent de HDTune.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

Le fait que le matériel ECC récupéré soit plus grand que le taux d'erreur de lecture brute est à mon avis contre-intuitif.

C'est ce que j'ai trouvé être un lecteur Seagate "normal" où l'ECC récupéré correspond au taux d'erreur de lecture brute:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

MODIFIER:

Je tiens à préciser que je sais que Google considère généralement SMART inutile. Je sais que tout le monde devrait sauvegarder ses données. Je suis cependant en train de réparer les ordinateurs d'autres personnes. La plupart des gens ne disposent pas de sauvegardes ou de RAID. Il n'est pas rentable pour les entreprises de dépanner les disques durs, elles les exécutent donc sur un RAID jusqu'à leur mort. Je trouve utile dans ma ligne de travail de vérifier l'état SMART du disque dur. Cela prend environ 30 secondes. Si j'ai la chance qu'un mauvais disque montre un soupçon d'échec tel que des erreurs de scan ou des secteurs réalloués, je sais que le disque peut bien sortir de là. Si aucun indice de ce genre n'existe, je passerai probablement de nombreuses heures à dépanner la lenteur et la corruption des données jusqu'à ce que je trouve enfin que le disque dur est défectueux.

J'essaie juste d'affiner ce processus.

James T
la source
Il y a des informations intelligentes dans le menu d'administration sous (je crois) la gestion des disques. Il peut avoir des capacités supplémentaires sur smartctl, mais je ne l'ai pas utilisé depuis un moment et je ne l'ai pas devant moi.
Jarvin
@ Dan Hi Dan, je ne sais pas de quel outil Windows vous parlez. Pouvez-vous clarifier?
James T
Le problème avec SMART est qu'il est un peu inapproprié; il n'y a pas d'intelligence réelle en elle, seulement quelques équations (probablement même pas d'heuristique). Tout ce qu'il peut faire, c'est se surveiller et rapporter les chiffres, c'est tout. Par exemple, j'ai un lecteur qui avait un cordon d'alimentation mal branché, ce qui l'a fait s'allumer et s'éteindre très rapidement plusieurs fois (émettant un «clic de mort»). J'ai réinstallé le connecteur, donc cela fonctionne bien maintenant, mais en raison de l'échec temporaire (réparable) qui, une fois, il a maintenant enregistré en permanence un événement RRER dans le SMART, donnant l'impression qu'il échoue.
Synetech

Réponses:

14

Il semble que différents fabricants utilisent des valeurs SMART pour des choses parfois radicalement différentes, comme vous pouvez le voir ici :

Mon (mes) disque (s) dur (s) dans ReadyNAS signale un taux élevé d'erreur de lecture brute SMART, un taux d'erreur de recherche et un ECC matériel récupéré. Que devrais-je faire?

Seagate utilise ces champs SMART pour les comptages internes, il s'agit donc d'un problème connu avec les disques Seagate. Recherchez les comptes anormaux dans d'autres domaines, en particulier le nombre d'erreurs Ct et ATA réallouées.

Donc, en ce qui concerne votre question réelle ...

Si j'ai la chance qu'un mauvais disque montre un soupçon d'échec tel que des erreurs de scan ou des secteurs réalloués, je sais que le disque peut bien sortir de là. Si aucun indice de ce genre n'existe, je passerai probablement de nombreuses heures à dépanner la lenteur et la corruption des données jusqu'à ce que je trouve enfin que le disque dur est défectueux.

Je dirais qu'une bonne règle est que vous ne pouvez vous attendre à ce que les paramètres SMART soient comparables au sein du même fabricant de disques, et peut-être même du même modèle de disque!

Donc, lorsque vous cherchez à diagnostiquer ces comptes SMART, gardez cela à l'esprit ... le «nombre de tentatives de lecture d'erreur» d'un fabricant peut signifier quelque chose de totalement différent de celui d'un autre fabricant. Triste mais vrai. :(

Jeff Atwood
la source
14

D'accord, tout d'abord, je suis en désaccord avec votre prémisse.

Google a fait une étude qui indique que certains attributs de données brutes que l'état SMART des rapports des disques durs peut avoir une forte corrélation avec la future panne du disque.

En fait, ils ont trouvé le contraire:

... nous constatons que les modèles de prédiction de défaillance basés sur les seuls paramètres SMART sont susceptibles d'être sévèrement limités dans leur précision de prédiction, étant donné qu'une grande partie de nos disques défectueux n'ont montré aucun signal d'erreur SMART.

Deuxièmement, les seuils SMART ne sont pas standardisés. Le micrologiciel sur le disque lui-même signalera un attribut comme étant "pré-panne", mais les valeurs brutes n'ont aucun sens pour l'utilisateur. Par exemple, Seagate dit :

Divers attributs sont surveillés et mesurés par rapport à certaines limites de seuil. Si un attribut dépasse un seuil, un test d'état SMART général passera de Réussi à Échoué.

Les valeurs SMART qui peuvent être lues par un logiciel SMART tiers ne sont pas basées sur la façon dont les valeurs peuvent être utilisées dans les disques durs Seagate. Seagate ne prend pas en charge les programmes logiciels qui prétendent lire des attributs et des seuils SMART individuels. Il peut y avoir une certaine exactitude historique sur les anciens disques, mais les nouveaux disques, sans aucun doute, auront incorporé des solutions, des attributs et des seuils plus récents.

tl; dr Résumé:

Les valeurs SMART brutes sont presque dénuées de sens, car différents fabricants les utilisent de différentes manières et ont des seuils différents, etc. très fiable.

Faites des sauvegardes régulières!

sml
la source
Sur la base de vos commentaires, il ne semble pas que vous ayez lu tout mon article. C'est pourquoi j'ai mis toutes les informations de base et les citations. Vous avez cité Google, mais seulement une partie très sélective de celui-ci. Si vous lisez la partie juste avant votre devis ... cela indique que certains attributs ont une forte corrélation d'échec ... comme le nombre de secteurs réaffectés. Les fabricants ne signalent pas que leurs disques sont dans un état de pré-panne après un secteur réaffecté. Cela indique clairement que vous pouvez obtenir une meilleure indication de la santé du disque en consultant les données brutes.
James T
Je voudrais également ajouter que mon disque Seagate corrompait mes données et que les valeurs des données brutes étaient sensiblement différentes de ce que j'ai appris à être des disques sains. Il est clair que quelque chose ne va pas avec l'endroit où le fabricant fixe le seuil.
James T
Je pense que vous devez relire mon message et mon lien. Les valeurs SMART Raw sont pas des indicateurs fiables de quoi que ce soit . Le rapport Google ne dit pas que "certains attributs ont une forte corrélation d'échec". Ce qu'il dit, c'est que malgré le fait que "après leur première erreur de scan, les disques sont 39 fois plus susceptibles de tomber en panne dans les 60 jours que les disques sans de telles erreurs", moins de 15% de la population de disques en panne avait des erreurs de scan. Est-ce un indicateur fiable s'il a raison 15% du temps?
sml
1
@scottl Je ne sais pas d'où vous tirez vos 15%. Je n'ai pas vu cela dans l'article. Même si seulement 15% de leurs lecteurs présentaient des erreurs d'analyse ... ils ont constaté qu'un lecteur présentant des erreurs d'analyse était 39 fois plus susceptible de tomber en panne en 60 jours. Cela ne signifie pas que votre disque ne tombera pas en panne, sauf si vous avez des erreurs de scan. Cela signifie simplement que si vous avez une erreur d'analyse ... la durée de vie restante de vos disques durs est probablement courte. Avez-vous déjà pris des statistiques? Je l'ai trouvé très utile.
James T
1
La FAQ de smartmontools dit: Les attributs SMART bruts (température, durée de vie à la mise sous tension, etc.) sont stockés dans des structures spécifiques au fournisseur. Parfois, c'est étrange. Les disques Hitachi (au moins certains d'entre eux) stockent la durée de vie à la mise sous tension en minutes plutôt qu'en heures (voir la question suivante ci-dessous). Les disques IBM (au moins certains d'entre eux) ont trois températures stockées dans la structure brute, pas une seule. Etc.
sml
4

Je ne sais pas exactement quelle est la question que vous posez. Vous semblez avoir rassemblé toute la question et la réponse en une seule mais ...

Avez-vous comparé les mesures du disque dur à celles fournies par SeaTools

C'est l'outil de diagnostic matériel standard de Seagate et AFAIK l'outil de diagnostic de disque dur le plus couramment utilisé.

Ne soyez pas surpris si vous constatez que les outils rapportent des résultats défavorables sur leurs concurrents. Les outils fonctionnent généralement avec les disques durs de tous les fabricants, mais cela ne signifie pas qu'ils ont fait en sorte que leurs concurrents soient beaux.

N'avez-vous jamais entendu la blague, "99,99% de toutes les statistiques sont vraies sauf, bien sûr, cette statistique".

Plie d'Evan
la source
1
Ouais ... c'est un peu déroutant. J'ai essentiellement mis toutes les informations générales que je connais avant la question et tous mes tests et conjectures après la question. Voici ma question "Comment normaliser ces données?". Fondamentalement ... comment puis-je faire tous les attributs de données d'un fabricant signifient la même chose que les attributs de données d'un autre fabricant afin que je puisse les comparer avec précision.
James T
@James Vous pouvez essayer de collecter des données à partir du plus grand nombre de différences possible et de comprendre comment chacun interprète les données différemment les uns des autres. Ils peuvent tous rapporter des données correctes, ils peuvent simplement les interpréter d'une manière différente comme vous l'avez souligné. C'est pourquoi j'ai ajouté la citation des statistiques ... Ce n'est pas parce que les données sont bonnes que les interprétations le sont.
Evan Plaice
2
Oui, c'est ce que j'ai fait. J'ai vérifié plus de 70 disques durs différents et la grande différence entre les erreurs de recherche et de lecture sont les attributs qui me sont restés. J'ai une supposition que pour les disques Seagate, les erreurs de lecture ont une sorte de relation avec le matériel ecc récupéré. Je ne sais pas exactement quelle est cette relation. J'espérais que quelqu'un ici pourrait me le dire. J'espérais également que quelqu'un pourrait me dire pourquoi les disques Seagate ont un énorme nombre d'erreurs de recherche alors que le numérique occidental semble toujours avoir zéro.
James T
@James Peut-être que quelqu'un viendra avec une meilleure réponse ... Ma supposition honnête est que Western Digital ne suit probablement pas la spécification SMART exacte. C'est le problème avec les normes matérielles, ce sont d'excellents arguments de vente, mais il y a toujours quelques fabricants qui commercialiseront tous les avantages sans suivre les spécifications complètes.
Evan Plaice
Oui, l'écart par rapport à la norme est ce que je pensais et ce que l'article de wikipedia suggère. J'aimerais savoir en quoi ils diffèrent afin que je puisse comparer correctement les deux fabricants (et éventuellement d'autres). Merci pour les commentaires Evan. Espérons que cela clarifie la question pour les autres aussi.
James T
2

Dans la réalité physique des disques durs internes, toutes les marques de disques durs de plus de 100 Mo auront beaucoup d'erreurs de lecture physiques. La plupart de ceux-ci sont corrigés en toute sécurité par ECC, certains (espérons très peu) sont corrigés à tort par ECC et le reste (peu mais plus que les mauvaises corrections) est signalé à l'ordinateur comme une lecture échouée et devrait également faire déplacer automatiquement le lecteur. mauvais secteur.

En plus de corriger les erreurs de lecture brutes, ECC corrige également les lectures jugées correctes par le matériel, mais les bits renvoyés étaient légèrement incorrects. Ainsi, ECC corrigé pourrait être "la lecture brute a échoué mais a été corrigée par ECC + la lecture brute a réussi mais elle était erronée et a été corrigée par ECC".

Ainsi, deux interprétations des données semblent possibles:

A. Les disques non Seagate n'incluent pas les erreurs de lecture corrigées ECC dans le "nombre d'erreurs de lecture brutes", seulement les erreurs non corrigibles.

B. Seagate considère qu'il s'agit d'une erreur de lecture si ECC trouve quelque chose de mal avec les données même si le circuit de bas niveau n'a pas remarqué, d'autres non.

La normalisation sera très différente selon la théorie (A ou B) qui convient.

Jakob Bohm
la source
> devrait également obliger le lecteur à déplacer automatiquement le secteur défectueux. Quelle est alors la relation entre les champs Nombre de secteurs non corrigibles Événement déplacé et Nombre de secteurs en attente en cours ? Cela n'augmenterait-il pas le courant , puis serait-il déplacé ou non corrigible ? Pourquoi serait-il impossible à corriger? S'il a essayé de remapper un secteur défectueux et qu'il a échoué (c'est-à-dire que le secteur de rechange est mauvais), ne devrait-il pas alors essayer de remapper vers un autre secteur de rechange? ce n'est pas un pneu qui n'a qu'une seule pièce de rechange.
Synetech
100 Mo? Voulez-vous dire 100 Go?
Peter Mortensen