Tout d'abord, je pense que tout le monde sait que les disques durs échouent beaucoup plus que les fabricants ne le reconnaissent . Google a fait une étude qui indique que certains attributs de données brutes que l'état SMART des rapports des disques durs peut avoir une forte corrélation avec la future panne du disque.
Nous constatons, par exemple, qu'après leur première erreur d'analyse, les disques sont 39 fois plus susceptibles de tomber en panne dans les 60 jours que les disques sans ces erreurs. Les premières erreurs dans les réallocations, les réallocations hors ligne et les nombres probatoires sont également fortement corrélées à des probabilités d'échec plus élevées. Malgré ces fortes corrélations, nous constatons que les modèles de prédiction de défaillance basés sur les seuls paramètres SMART sont susceptibles d'être sévèrement limités dans leur précision de prédiction, étant donné qu'une grande partie de nos disques défectueux n'ont montré aucun signal d'erreur SMART.
Seagate semble essayer de masquer ces informations sur leurs disques en affirmant que seul leur logiciel peut déterminer avec précision l'état précis de leur disque et que leur logiciel ne vous dira pas les valeurs de données brutes pour les attributs SMART. Western Digital n'a fait aucune réclamation à ma connaissance, mais leur outil de rapport d'état ne semble pas non plus rapporter les valeurs des données brutes.
J'ai utilisé HDtune et smartctl de smartmontools afin de rassembler les valeurs de données brutes pour chaque attribut. J'ai trouvé qu'en effet ... je compare des pommes à des oranges en ce qui concerne certains attributs. J'ai constaté par exemple que la plupart des disques Seagate signalent qu'ils ont plusieurs millions d'erreurs de lecture, tandis que Western Digital 99% du temps affiche 0 pour les erreurs de lecture. J'ai également constaté que Seagate signalera plusieurs millions d'erreurs de recherche tandis que Western Digital semble toujours signaler 0.
Q : Comment normaliser ces données? Seagate produit-il des millions d'erreurs alors que Western Digital n'en produit aucune? L'article de Wikipedia sur statut SMART indique que les fabricants ont différentes façons de signaler ces données.
Voici mon hypothèse:
Je pense avoir trouvé un moyen de normaliser (est-ce le bon terme?) Les données.
Les disques Seagate ont un attribut supplémentaire que les disques Western Digital n'ont pas (ECC matériel récupéré). Lorsque vous soustrayez le nombre d'erreurs de lecture du nombre récupéré ECC, vous vous retrouverez probablement avec 0. Cela semble être équivalent au nombre d'erreurs de lecture signalé par Western Digitals. Cela signifie que Western Digital ne signale que les erreurs de lecture qu'il ne peut pas corriger tandis que Seagate compte toutes les erreurs de lecture et vous indique le nombre de celles qu'il a pu corriger.
J'avais un lecteur Seagate où le nombre d'erreurs de lecture était inférieur au nombre d'ECC récupéré et j'ai remarqué que beaucoup de mes fichiers devenaient corrompus. C'est ainsi que j'ai formulé mon hypothèse. Les millions d'erreurs de recherche que Seagate produit sont toujours un mystère pour moi.
Veuillez confirmer ou corriger mon hypothèse si vous avez des informations supplémentaires.
Voici l'état intelligent de mon lecteur numérique occidental pour que vous puissiez voir de quoi je parle:
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Edit: Voici le disque Seagate dont je parlais qui causait la corruption de données. Ces données proviennent de HDTune.
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
Le fait que le matériel ECC récupéré soit plus grand que le taux d'erreur de lecture brute est à mon avis contre-intuitif.
C'est ce que j'ai trouvé être un lecteur Seagate "normal" où l'ECC récupéré correspond au taux d'erreur de lecture brute:
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
MODIFIER:
Je tiens à préciser que je sais que Google considère généralement SMART inutile. Je sais que tout le monde devrait sauvegarder ses données. Je suis cependant en train de réparer les ordinateurs d'autres personnes. La plupart des gens ne disposent pas de sauvegardes ou de RAID. Il n'est pas rentable pour les entreprises de dépanner les disques durs, elles les exécutent donc sur un RAID jusqu'à leur mort. Je trouve utile dans ma ligne de travail de vérifier l'état SMART du disque dur. Cela prend environ 30 secondes. Si j'ai la chance qu'un mauvais disque montre un soupçon d'échec tel que des erreurs de scan ou des secteurs réalloués, je sais que le disque peut bien sortir de là. Si aucun indice de ce genre n'existe, je passerai probablement de nombreuses heures à dépanner la lenteur et la corruption des données jusqu'à ce que je trouve enfin que le disque dur est défectueux.
J'essaie juste d'affiner ce processus.
la source
Réponses:
Il semble que différents fabricants utilisent des valeurs SMART pour des choses parfois radicalement différentes, comme vous pouvez le voir ici :
Donc, en ce qui concerne votre question réelle ...
Je dirais qu'une bonne règle est que vous ne pouvez vous attendre à ce que les paramètres SMART soient comparables au sein du même fabricant de disques, et peut-être même du même modèle de disque!
Donc, lorsque vous cherchez à diagnostiquer ces comptes SMART, gardez cela à l'esprit ... le «nombre de tentatives de lecture d'erreur» d'un fabricant peut signifier quelque chose de totalement différent de celui d'un autre fabricant. Triste mais vrai. :(
la source
D'accord, tout d'abord, je suis en désaccord avec votre prémisse.
En fait, ils ont trouvé le contraire:
Deuxièmement, les seuils SMART ne sont pas standardisés. Le micrologiciel sur le disque lui-même signalera un attribut comme étant "pré-panne", mais les valeurs brutes n'ont aucun sens pour l'utilisateur. Par exemple, Seagate dit :
tl; dr Résumé:
Les valeurs SMART brutes sont presque dénuées de sens, car différents fabricants les utilisent de différentes manières et ont des seuils différents, etc. très fiable.
Faites des sauvegardes régulières!
la source
Je ne sais pas exactement quelle est la question que vous posez. Vous semblez avoir rassemblé toute la question et la réponse en une seule mais ...
Avez-vous comparé les mesures du disque dur à celles fournies par SeaTools
C'est l'outil de diagnostic matériel standard de Seagate et AFAIK l'outil de diagnostic de disque dur le plus couramment utilisé.
Ne soyez pas surpris si vous constatez que les outils rapportent des résultats défavorables sur leurs concurrents. Les outils fonctionnent généralement avec les disques durs de tous les fabricants, mais cela ne signifie pas qu'ils ont fait en sorte que leurs concurrents soient beaux.
N'avez-vous jamais entendu la blague, "99,99% de toutes les statistiques sont vraies sauf, bien sûr, cette statistique".
la source
Dans la réalité physique des disques durs internes, toutes les marques de disques durs de plus de 100 Mo auront beaucoup d'erreurs de lecture physiques. La plupart de ceux-ci sont corrigés en toute sécurité par ECC, certains (espérons très peu) sont corrigés à tort par ECC et le reste (peu mais plus que les mauvaises corrections) est signalé à l'ordinateur comme une lecture échouée et devrait également faire déplacer automatiquement le lecteur. mauvais secteur.
En plus de corriger les erreurs de lecture brutes, ECC corrige également les lectures jugées correctes par le matériel, mais les bits renvoyés étaient légèrement incorrects. Ainsi, ECC corrigé pourrait être "la lecture brute a échoué mais a été corrigée par ECC + la lecture brute a réussi mais elle était erronée et a été corrigée par ECC".
Ainsi, deux interprétations des données semblent possibles:
A. Les disques non Seagate n'incluent pas les erreurs de lecture corrigées ECC dans le "nombre d'erreurs de lecture brutes", seulement les erreurs non corrigibles.
B. Seagate considère qu'il s'agit d'une erreur de lecture si ECC trouve quelque chose de mal avec les données même si le circuit de bas niveau n'a pas remarqué, d'autres non.
La normalisation sera très différente selon la théorie (A ou B) qui convient.
la source