Mon disque dur est-il défaillant?

42

J'ai juste essayé d'exécuter un test sur mon disque dur et il ne veut pas effectuer d'autotest. Voici le résultat:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Alors, ce disque est en panne?

Michel
la source
Quand j'utilise l'outil graphique, on dit que l'auto-test a échoué
Michel Le
3
Les read failuremessages répétés indiquent généralement un disque défaillant, alors oui ...
HBruijn
23
Michel, bienvenue à SF et merci pour cette bonne première question. Comme vous le constaterez peut-être si vous décidez de vous en tenir à cette partie (ce que j'espère, vous le ferez), une bonne première question est une chose rare et précieuse. Vous aviez une hypothèse appropriée au site ( "mon disque dur échoue "), vous avez trouvé l'outil approprié et appris à l'utiliser, mais vous avez besoin d'aide pour interpréter les résultats. Vous êtes donc venu ici, nous avez fourni toutes les informations pertinentes, aucun surplus de déchets, et vous avez posé une question qui était un modèle de concision. Merci - restez s'il vous plaît!
MadHatter soutient Monica
3
+1: excellente première question. Pour tirer le meilleur parti de Server Fault, veuillez enregistrer votre compte et consulter certains des autres sites du réseau Stack Exchange . Nous espérons vous voir contribuer davantage de contenu de haute qualité à Stack Exchange.
bwDraco

Réponses:

43

Votre lecteur est très heureux de faire un auto-test; d'après le résumé, il en a fait plus de cinq au cours de la dernière heure. Et tous ont échoué, au début du test, avec des erreurs de lecture.

Oui, ce disque dur est en panne. Comme le dit le fameux rapport de Google Labs (bien que je ne puisse pas mettre un lien vers celui-ci pour le moment), si smartctlvous indiquez que votre lecteur est en panne, il l'est probablement (je le paraphrase).

Edit : n'essayez pas de le sauvegarder. Obtenez toutes les données et remplacez-les.

MadHatter soutient Monica
la source
9
Si c'est un échec, c'est un échec. La réparer peut être techniquement possible, mais il est extrêmement peu probable que son rapport coût-efficacité soit inférieur à celui d'un nouveau disque.
Sobrique
7
@Michel L'absence d'une erreur d' auto-test ne prouve pas qu'un lecteur ne parvient pas, malheureusement, mais la présence d'une erreur d'auto - test doit toujours être considérée comme une preuve qu'il est un échec.
Rob Moir
1
@ Michel: Vous pouvez essayer de remplacer les câbles. Parfois, un lecteur peut échouer non pas à cause de problèmes dans le lecteur, mais à cause de câbles d'alimentation ou de données défectueux.
Thomas Padron-McCarthy
1
@ JorgeNerín: Je pense que vous faites valoir un excellent point, mais il est évident que le PO et moi-même le comprenons déjà - le PO doit le faire, car il en a initié au moins cinq au cours des deux dernières heures. En ce qui concerne les tests, je conviens avec vous qu'un test long serait un meilleur indicateur de la santé du disque, mais lorsqu'il échoue à la fois pour les tests de court et de moyen de transport dans les premiers 10% du lecteur, je pense que nous pouvons raisonnablement conclure que le lecteur est coup. Qu'espérez-vous révéler par des tests plus poussés?
MadHatter soutient Monica
2
@ JorgeNerín <sourire> c'est logique! Je ne parlais que parce que l'OP avait commencé par anthropomorphiser son lecteur: " J'ai juste essayé d'exécuter un test sur mon disque dur et il ne veut pas effectuer d'autotest ". Je pense que ni l'un ni l'autre de nous ne pense que le lecteur est en vie, ni qu'il programme lui-même des tests automatiques!
MadHatter soutient Monica
10

Pour répondre à votre question, un test SMART échoué est une indication irréfutable d'une défaillance imminente du lecteur. Sauvegardez vos données et remplacez le lecteur dès que possible pour éviter toute perte de données.

@ sj0h a mentionné le nombre de cycles de charge, qui est très élevé (447 630). (La plupart des disques durs modernes sont conçus pour supporter 600 000 cycles de chargement / déchargement.) Cela est généralement dû à la fonction APM (Advanced Power Management), qui tente d'économiser de l'énergie en stationnant les têtes (en les déchargeant des plateaux) après plusieurs secondes de tourner au ralenti. Les têtes sont chargées sur les plateaux en cas de besoin. Sur la plupart des systèmes, où les disques durs subissent une activité intermittente, il peut en résulter de nombreux cycles de chargement / déchargement. Pour désactiver APM, exécutez la commande suivante à une invite de la racine:

smartctl -s apm,off /dev/sda

Cette commande devra être exécutée chaque fois que le système est mis hors tension ou en veille, ou que le lecteur est autrement mis hors tension, car ce paramètre n'est pas conservé lorsque le lecteur est mis hors tension.

D'après mon expérience, cela réduira considérablement le nombre de cycles de chargement / déchargement et, par conséquent, les chances que vous rencontriez ce type d'échec dans le futur. Notez cependant que cela augmente la consommation d'énergie et la température du disque. Si le lecteur fonctionne constamment à des températures supérieures à 50 ° C, le risque de défaillance prématurée augmente, vous pouvez donc laisser l'APM activé (ou l'activer s'il est éteint) pendant les mois les plus chauds.

bwDraco
la source
2

Outre les échecs de lecture, prenez également en compte le nombre de cycles de charge. À près de 500 000, cela peut indiquer un motif de défaillance ou au moins une usure élevée du cycle de charge. Il y a un cycle de charge pour chaque minute de temps de démarrage. Après avoir remplacé le lecteur, assurez-vous que le nouveau lecteur ne le fait pas également.

sj0h
la source
Très bonne observation. Comment peut-on diagnostiquer pourquoi le lecteur tourne et redescend chaque minute?
dotancohen
@ doancoo, voir ma réponse - APM est à blâmer.
bwDraco
2

Oui, vous avez 16 secteurs illisibles, vous avez essayé de faire plusieurs tests qui ont tous échoué dans à peu près la même zone du lecteur, donc, sauvegarde rapide, mais gardez à l'esprit que vous avez déjà des données inaccessibles maintenant à proximité de secteurs 92290592, 92290596.

Vous pouvez avoir d'autres domaines problématiques, vous ne savez toujours pas si ces 16 secteurs sont consécutifs ou répartis, si vous voulez jouer après la sauvegarde, vous pouvez effectuer un auto-test sélectif avec -t select, startlba-endlba.

Current_Pending_Sector signifie que le micrologiciel du disque dur a essayé de le lire, mais ne le peut pas. Il essaiera plusieurs fois de plus (chaque fois que le système d'exploitation le demande) jusqu'à ce qu'il échoue et le marque comme Offline_Uncorrectable. Il remplacera également le secteur endommagé par un autre Le système d’exploitation y écrit (ce qui augmente Reallocated_Sector_Ct en conséquence).

Jorge Nerín
la source
1

Je remplacerais personnellement le lecteur. Si, pour une raison quelconque, vous ne voulez pas encore le faire, mais attendez encore un peu avec le lecteur, vous devez trouver un moyen de vous assurer que vous n'utilisez pas accidentellement les zones défectueuses pour les nouveaux fichiers.

J'avais un tel lecteur sur un vieux Mac qui venait d'enregistrer une vidéo et j'ai décidé de ne pas le changer pour le moment, car les vidéos étaient tout simplement agréables à avoir. J'ai donc dû isoler les erreurs. J'ai d'abord créé un dossier vide uniquement pour les fichiers défectueux, puis j'ai essayé de lire tous les fichiers existants sur le disque et tous ceux avec une erreur ont été déplacés vers le répertoire des fichiers défectueux (heureusement sans importance).

Ensuite, j'ai créé un grand nombre de fichiers d'un mégaoctet nommés de manière unique pour remplir le disque dur (de sorte que tout l'espace vide se trouvait maintenant dans l'un de ces fichiers de 1 Mo), puis j'ai répété la procédure. Tous les fichiers contenant des erreurs ont été déplacés vers le répertoire des fichiers défectueux. Ceux qui restent sont bons et peuvent être supprimés pour récupérer le mauvais espace.

Vous pouvez maintenant utiliser le lecteur un peu plus longtemps, mais ne l'utilisez pas pour des tâches importantes. Il va tomber en panne plus et il sera très probablement peu pratique quand il arrive.

Thorbjørn Ravn Andersen
la source
1

Ce n'est pas un très bon signe. Vous devez vous assurer que le contenu du disque est sauvegardé et ne pas utiliser le disque pour des tâches importantes.

Cependant, j'ai vu des disques avec des secteurs défaillants les réaffecter et demeurer opérationnels pendant des années. Vous pouvez donc les conserver pendant un certain temps, par exemple pour des tâches sans importance ou des sauvegardes supplémentaires.

Une chose à faire serait alors de voir quels fichiers étaient corrompus par les secteurs illisibles et d'écrire dans ces secteurs pour forcer la réaffectation par le disque (en les déplaçant de "Current_Pending_Sector" vers "Reallocated_Sector_Ct"). Si vous utilisez Linux, voir http://smartmontools.sourceforge.net/badblockhowto.html . Une fois que les secteurs ont été réaffectés, l'autotest doit réussir ou signaler des secteurs illisibles.

Je suis en désaccord avec la plupart des réponses en ce sens que je ne pense pas que les mauvais secteurs soient nécessairement un signe d'échec imminent. Comme le dit http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ , "chaque disque dur commence à produire des secteurs défectueux à un moment donné de sa vie".

a3nm
la source
Bien que je convienne que l'échec n'est pas certain en cas de mauvais secteur, la probabilité qu'un conducteur échoue après un mauvais secteur augmente de manière significative (je pense que cela figurait également dans le rapport de Google, mais je ne trouve pas la source réelle à l'heure actuelle)
Dennis Nolte