Recherchez les erreurs / signes de défaillance du disque dur sur le serveur CentOS

14

Quelle est la meilleure façon de vérifier les erreurs du disque dur et les premiers signes de défaillance sur CentOS?

inac
la source
1
quelle devrait être la fréquence des contrôles? journalier hebdomadaire?
inac

Réponses:

3

Je recommanderais d'installer smartmon ( http://sourceforge.net/apps/trac/smartmontools/wiki ) sur votre machine c'est un logiciel qui peut vérifier la santé de vos disques sinon il va vérifier / var / log / messages ou / var / log / syslog pour toute mention d'erreurs scsi

Paul
la source
il semble que smartmon, bien que ses statistiques mentionnent qu'il ne capturerait que 60% des disques défectueux.
inac
@inac smartmon aidera les disques durs à mourir plus rapidement? Où avez-vous lu ceci? Veuillez ajouter une URL.
030
2
dmesg

Le noyau enregistrera tous les messages de diagnostic concernant les périphériques d'E / S, vous pouvez donc extraire ces messages avec la commande dmesg.

Banjer
la source
mais vous devez exécuter ce vidage manuel ou cronjob dmesg vers vi?
inac
Soit. vous pouvez créer un script pour le vider avec "dmesg> dmesg.dump.txt" et l'exécuter quotidiennement avec cron.
Banjer
1

Vous pouvez exécuter fsck sur l'appareil pour vérifier les erreurs.

cdated
la source
0

Comme le dit Paul, les journaux SMART sont un bon endroit pour vérifier.

Je recommanderais également d'exécuter BadBlocks . Si vous avez une carte RAID, vous devrez peut-être utiliser la surveillance à ce sujet.

Dentrasi
la source
0

La surveillance SMART est un bon moyen. En tant que root, smartctl -a /dev/hdaoù hda est le lecteur que vous souhaitez ... pourrait être hdb, sda, etc. Recommandez également de définir votre adresse e-mail dans / etc / aliases comme la personne qui devrait recevoir le courrier de root.

C'est une réponse très vague cependant. Si vous avez un serveur fabriqué par l'un des grands fabricants (Dell, HP, etc.), il y a de meilleures possibilités de surveillance disponibles.

churnd
la source
0

Vous pouvez essayer une vérification complète de la partition / dev / sda1 (par exemple) comme

fsck -f /dev/sda1

ou essayez un test non descriptif complet en lecture-écriture de la partition donnée

badblocks -vn /dev/sda1
Liibo
la source
/dev/sda1 is mounted; it's not safe to run badblocks!
030
e2fsck: Cannot continue, aborting.
030
@ 030 Passer à un niveau d'exécution où le disque principal n'est pas monté.
awiebe