Comment faire pour que smartd ferme un secteur particulier non corrigible hors ligne?

18

J'ai un disque dans un logiciel RAID-1 à deux disques pour lequel récemment un "secteur non corrigible hors ligne" est apparu dans l'état SMART.

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

Apparemment, cela n'est un signe de défaillance imminente du disque que s'il se produit de plus en plus fréquemment (et comme le lecteur est en miroir, il n'y a pas non plus de risque réel de perte de données réelle). À l'époque, un auto-test a également échoué à un moment donné et smartdm'a envoyé un e-mail pour m'en informer, comme cela devrait bien sûr le faire.

Cependant, l'écriture dans le secteur endommagé oblige généralement le disque à utiliser un de ses secteurs de rechange à la place, ce qu'il a apparemment fait car, depuis que j'ai ddparcouru le disque, tous les auto-tests se sont bien déroulés. Et badblocksaussi trouvé aucune raison de se plaindre.

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
[...]
# 5  Extended offline    Completed without error       00%      5559         -
# 6  Short offline       Completed without error       00%      5540         -
# 7  Short offline       Completed: read failure       90%      5524         63273368

Le nombre de secteurs défectueux n'a pas diminué, mais il ne devrait pas, vraiment, car le secteur cassé est toujours là, bien qu'il ne soit pas utilisé. Cependant, smartdcontinue de m'envoyer des e-mails tous les soirs:

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 1 Offline uncorrectable sectors

C'est extrêmement ennuyeux évidemment et engourdit mon réflexe de panique sain face aux smartdmails.

Le disque est un Western Digital WD20EARS et la smartdversion est 5.41 2011-06-09 r3365.

Christian
la source

Réponses:

23

Sur certains disques, vous devrez peut-être recourir à -U 198+(ou -U +?) Dans le fichier de configuration.

S'il vous plaît soyez prudente. Si vous n'êtes pas le demandeur d'origine, lisez attentivement toute la question. Si vous l'utilisez sur un disque qui n'en a pas besoin, il supprimera les avertissements entièrement valides.

Si ´ + ´ est spécifié, un rapport n'est imprimé que si le nombre de secteurs a augmenté depuis le dernier cycle de contrôle. Certains disques ne réinitialisent pas cet attribut lorsqu'un secteur défectueux est réaffecté. Voir également ´-v 198, en augmentation´ ci-dessous.

smartd.conf (5)

Par exemple, supposons que vous utilisez la configuration par défaut dans smartd.conf. Dans ce cas, le fichier contient de nombreux commentaires, mais la seule ligne de non-commentaire est ici:

# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices.  DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found.  Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN

Ajoutez l'option à la fin de la ligne:

DEVICESCAN -U 198+
sourcejedi
la source
1
-U 198+devrait le faire. Belle trouvaille!
Michael Hampton
des examens pour cela?
JIV
1
@JIV édité. J'ai également ajouté un avertissement. Veuillez prendre toutes les précautions nécessaires avec vos données :-).
sourcejedi
0

il y a deux possibilités d'où proviennent ces mails. smartd est capable d'envoyer des e-mails par lui-même, mais il n'est probablement pas configuré de cette façon, donc je suppose que ces e-mails sont envoyés par logcheck. Si cette hypothèse est fausse, vous n'avez pas besoin de lire plus loin.

logcheck scanne les fichiers journaux et envoie des mails s'il pense que vous devriez vous soucier de tout ce qui est arrivé à / sur votre système.

Vous avez la possibilité d'écrire une règle d'ignorance de la vérification du journal qui indique à la vérification du journal de ne pas envoyer de messages correspondant à un modèle spécifique.

Vous pouvez (sous les systèmes basés sur Debian) créer un fichier appelé "/etc/logcheck/ignore.d.server/smartd_own" avec le contenu suivant:

^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$

Cela devrait filtrer les mails ennuyeux mais vous réécrire si le compteur des secteurs non corrigibles augmente.

hennr
la source
smartdenvoie les messages directement, malheureusement. C'est apparemment toujours une option pour changer cela. Je considérerai ceci s'il n'y a pas d'autre moyen, alors merci!
Christian
Oh sacrément, de toute façon vous avez une solution de contournement maintenant.
hennr