Ce test automatique SMART indique-t-il un lecteur en panne?

10

Je me demande si les résultats de cet autotest SMART indiquent un lecteur défaillant, c'est le seul lecteur qui présente «terminé: échec de lecture» dans les résultats.

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

Le lecteur ne montre pas encore de signes de panne, à part la sortie de ce test automatique SMART. Il s'agit de la sortie d'un autre lecteur du même système qui exécute actuellement un autotest SMART

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2
Jeff Welling
la source
4
Il serait beaucoup plus utile de lancer smartctl -a /dev/sdeet de publier la section intitulée SMART Attributes Data Structurecontenant les compteurs bruts. En particulier, le tout premier Raw_Read_Error_Ratequi est le meilleur indicateur de "mauvais lecteur" (et sera probablement! 0 dans votre cas).
Chris S
1
Ajoutée. . . . . . . . . .
Jeff Welling
1
Les données que vous avez ajoutées semblent assez bonnes. Si le disque fait partie d'une matrice RAID, je ne m'en inquiéterais pas. Vous devez sauvegarder vos fichiers importants en premier lieu; c'est le bon moment pour commencer si vous ne le faites pas.
Chris S
4
@Jeff Welling: Ne pas être un pédant à ce sujet, mais si votre «sauvegarde» est sur la matrice RAID, ce n'est pas une «sauvegarde», c'est une «copie». Personnellement, si c'était moi, je remplacerais le disque sous le signe d'une panne de disque. Pour le peu de frais qu'il y a pour faire un bon trajet de nos jours, l'assurance en vaut la peine. De plus, je viens de rencontrer deux pannes de disques, dans la même baie (RAID10), le même jour. Sur 6 qui étaient dans le tableau. FWIW.
Kendall
1
@Kendall, je pense qu'il veut dire que le tableau est utilisé pour les sauvegardes et que les originaux sont ailleurs. Si tel est le cas, je le hasarderais car il est peu probable que deux disques tombent en panne (à moins qu'il ne s'agisse de nouveaux disques, la mortalité infantile est un problème courant et la brûlure est une pratique courante dans les grandes baies).
Chris S

Réponses:

8

J'espère que vous avez depuis longtemps remplacé le lecteur, mais puisque personne n'a encore répondu directement à la question ...

Vous avez exécuté deux tests, qui n'ont pas réussi à lire le même secteur logique du disque, comme indiqué par Completed: read failureet le même LBA dans les deux tests. Cela indique en effet que le disque a un défaut, et vous devriez pouvoir le faire remplacer sous garantie. Tenter de stocker des données dans ce secteur peut ou non faire en sorte que le lecteur remarque qu'il est défectueux pendant le processus d'écriture et remapper le secteur, mais si le lecteur ne le remarque pas et ne peut pas lire les données plus tard, vous avez perdu il.

Michael Hampton
la source
4

Vos données valent-elles le risque sur un lecteur suspect?

Si c'était moi, je remplacerais le lecteur et je serais reconnaissant que SMART m'ait évité un gros mal de tête.

Lardons
la source
De plus, je voudrais au moins configurer un script cron pour exécuter Smart une fois par semaine sur vos disques, puis le faire envoyer la sortie dans un rapport ou un e-mail chaque semaine afin que vous puissiez dans la plupart des cas vous identifier à l'avance quels disques pourraient être sur leurs derniers pattes pour éviter d'avoir à récupérer après une panne et d'avoir à restaurer à partir de sauvegardes. Plus simple encore, si vous avez plusieurs machines, utilisez un outil de surveillance comme Nagios ou Munin.
Wilshire
5
C'est plus facile à faire lorsque vous savez quelle sortie intelligente indique un lecteur en panne, il est difficile de dire ce qui indique et n'indique pas un lecteur en panne.
Jeff Welling
4

Je veux ajouter aux commentaires dans l'autre réponse, mais je ne peux pas, faute de représentant, aller comprendre.

Vous n'avez pas besoin de faire un script cron, il y a un démon smartd dans le paquet smartmontools qui gère exactement ce que vous voulez faire: vérification régulière de l'état SMART. Il vous suffit de créer une configuration et de démarrer le service. Le package smartmontools contient également des exemples de scripts que smartd peut appeler lorsque quelque chose commence à échouer.

Sgaduuw
la source
Je n'utilise pas de script cron, j'utilise le démon smartd. Il crache des notes dans le journal système, j'ai remarqué des lignes que je ne vois normalement pas sur d'autres lecteurs et j'ai tenté un autotest, qui, lorsque j'ai vérifié, avait échoué. Je n'avais jamais vu ce genre d'échec auparavant, alors j'ai pensé que les gens ici auraient pu. La sortie syslog de smartd est assez cryptique si vous n'avez pas une tonne d'expérience avec elle, elle ne vous dit pas exactement "Drive X est en train de mourir et doit être remplacé" bien que ce serait bien si c'était le cas :)
Jeff Welling
2

Que vais-je faire dans votre situation?

Tout d'abord, je découvre les fichiers concernés. Il y a quelques instructions pour ce faire http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 Oui. Dans votre cas, c'est plus difficile car vous avez un tableau. Mais c'est possible. Ensuite, assurez-vous que ce fichier est sauvegardé, puis écrivez des zéros dans le secteur défaillant. Deux choses peuvent arriver. 1. Le lecteur écrit avec succès des zéros dans ce secteur. Current_Pending_Sector, Reallocated_Sector_Ct devraient être des zéros après. 2. Le lecteur ne parvient pas à écrire dans ce secteur. Ensuite, il remappe ce secteur dans une zone "de rechange".

Dans tous les cas, vous vous retrouvez avec un lecteur fixe. Vous devez restaurer votre fichier à partir d'une sauvegarde (car vous en avez remplacé un secteur). Vous devez également relancer l'autotest étendu pour vous assurer qu'il n'y a plus d'erreurs.

Reste en bonne santé!

PS Je sais que ce post est un peu vieux. Mais je l'ai goolée. Et je pense que c'est une bonne idée de fournir une autre bonne réponse.

Alexandr Priymak
la source
1
info pratique! Je vais essayer maintenant
kerridge0
0

Le lecteur était probablement sur le point de sortir. L'impossibilité de lire à partir d'une partie du lecteur est très certainement une condition de panne, et il est certainement possible que cela se produise sans d'autres signes typiques de panne de disque. Ce type de chose n'est généralement pas transitoire; en l'absence d'autres signes, il peut s'agir d'une tête faible, d'un très léger problème d'alignement ou d'une zone défectueuse sur un plateau (cylindre?).

L'autre alternative est qu'il y avait un bogue SMART; vous ne voulez vraiment pas utiliser un lecteur avec un firmware buggé.

Chaque fois que vous voyez une erreur de SMART, c'est un signe fort que vous devez obtenir un nouveau lecteur pour éviter la perte de données. Il s'agit en partie d'un système d'alerte précoce.

Falcon Momot
la source
0
  • Sauvegardez dès que vous le pouvez!

  • Si ce lecteur est toujours sous garantie, alors

    • exécutez l'utilitaire de vérification du vendeur (vous pouvez généralement obtenir un CD de démarrage)
    • si cela renvoie une erreur, alors bingo, renvoyez-le et attendez le remplacement
    • Restore depuis une sauvergarde
    • problème résolu - FIN

  • Si ce lecteur n'a aucune garantie, vous êtes vissé
    • il y a encore de l'espoir ...
    • car il s'agit en fait d'une erreur de lecture seulement, cela ne signifie pas que vous ne pouvez pas y écrire
    • après avoir fait une sauvegarde, vous pouvez essayer de restaurer la sauvegarde car elle remplacera les secteurs illisibles avec de nouvelles données que vous pouvez réellement lire (enfin, cela fonctionne généralement, en arrière-plan, le lecteur remappera ces blocs pour épargner des secteurs la plupart du temps )
    • badblocks l'outil peut également être utilisé pour cela (vous avez déjà des sauvegardes, non?)
      • vous ne l'utilisez pas réellement pour tester le disque (cela n'a pas beaucoup de sens avec jamais de disques de toute façon), mais pour écrire sur ces secteurs plusieurs fois
    • vous pouvez réexécuter les tests intelligents et il est possible que ces secteurs illisibles "se corrigent"
    • problème NON résolu, vous n'avez fait que durer le disque plus longtemps, il échouera probablement plus rapidement que d'habitude dans un an en fonction de son utilisation, mais bon les disques sont bon marché, achetez-en un nouveau si vos données sont importantes pour vous - FIN
cstamas
la source
1
Les disques durs modernes (comme depuis le début du siècle) ne fonctionnent pas comme vous l'avez décrit dans la section «sans garantie».
Chris S
3
Commencez avec l' article Bad Sector de Wikipedia . Les disques durs résument l'adresse du secteur logique et la mappent aux secteurs qu'il juge bons. Certains utilitaires du fournisseur (parfois SMART, selon ce qui est exposé par le lecteur) peuvent générer des rapports sur les secteurs remappés. Les secteurs défectueux sont détectés normalement lors des opérations d'écriture. Habituellement, une fois écrit, il peut être relu; c'est l'opération d'écriture initiale qui échoue généralement sur les secteurs défectueux. Une fois qu'un secteur est mauvais, il est mauvais pour toujours, il n'y a pas de "correction".
Chris S
1
Je pense que je n'ai rien dit qui soit contre ce que vous dites, mais j'ai clarifié un peu pour le rendre plus "techniquement correct".
cstamas
2
Je ne sais pas pourquoi les gens ont tellement voté contre votre réponse. Je pense que vous êtes sur place. Les gens ont probablement mal compris que vous préconisez de maintenir un lecteur instable en fonctionnement. Mais étant donné que l'OP est un usage domestique, le coût d'un nouveau disque peut très bien être un problème, même aux prix d'aujourd'hui. Je sais que c'est une assez vieille question, mais de moi, au moins, vous obtenez un +1. ;)
Markus A.
2
@cstamas: Peut également convenir que votre réponse est exacte - si un lecteur survit à une exécution complète de badblocks -w(3x écriture, 3x lecture) sans créer de nouveaux secteurs défectueux, je le garderai. Sinon, il est tout simplement trop cassé pour être utilisé quelque part.
mt_