Comment savoir si un disque tombe en panne sur ESXi / que signifient ces erreurs?

10

J'ai un serveur exécutant VMware ESXi v4.1.0 348481. Il dispose d'un RAID10 matériel et d'un lecteur de sauvegarde SATA. J'ai une machine virtuelle en cours d'exécution qui a son vmdk de démarrage principal sur la banque de données RAID10, et une vmdk de 600 Go sur la banque de données du lecteur de sauvegarde SATA. La machine virtuelle exécute Debian Linux avec le noyau FreeBSD et utilise ZFS pour le lecteur de sauvegarde.

EDIT: le lecteur n'est pas directement connecté à la machine virtuelle. Il est utilisé en tant que banque de données VMware et la machine virtuelle possède un vmdk sur la banque de données du lecteur SATA. Le magasin de données n'est pas plein (65% seulement)

Je me suis connecté au serveur à l'aide de SSH et j'ai constaté que la sauvegarde de la nuit dernière était bloquée, zfs listou les zpool listdeux bloquées. J'ai donc ouvert la console virtuelle dans ESXi et j'étais triste de voir:

Cette capture d'écran me rend triste

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

J'ai essayé de redémarrer la machine virtuelle et j'ai reçu un message indiquant que le système était en cours de redémarrage, puis cela s'est bloqué. (^ C apparaît mais ne tue pas shutdown). Je ne peux pas interrompre ou kill -9le processus zpool list zfs listou rsync- Rien ne se passe lorsque j'essaie.

  1. Cela indique-t-il que le disque SATA de sauvegarde est en panne? Ou pourrait-il s'agir simplement d'une erreur ESXi?
  2. Comment dans le client vSphere pourrais-je savoir si le lecteur tombe en panne? Je n'ai vu aucune indication, tout sous État de santé du matériel semble bon, et je n'ai rien vu sous la configuration de stockage.
  3. Comment dois-je procéder à partir d'ici? Dois-je simplement redémarrer dur la machine virtuelle?

MISE À JOUR: Je viens de redémarrer durement la machine virtuelle. Après sa remise en ligne, le zpool de sauvegarde était en ligne, cependant:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Je me penche fortement vers le remplacement du lecteur ...

Josh
la source

Réponses:

5

Ces erreurs indiquent en effet que l'un des disques SATA a rencontré suffisamment de blocs défectueux pour manquer d'espace de réallocation de blocs. Ce lecteur est défectueux et doit être remplacé. Je ne sais pas où dans le client vSphere ces informations sont affichées, mais les entrées de journal sont assez claires.

Si votre matériel le permet, un remplacement à chaud devrait être possible. Sinon, vous devrez tout fermer pour effectuer le changement. Si cette machine virtuelle ne s'est pas arrêtée au bout de 30 minutes, il est temps de l'interrompre brutalement. C'est risqué, mais s'il est vraiment accroché, il n'y a pas grand-chose pour cela.

sysadmin1138
la source
Merci @ sysadmin1138. Donc, même si ces erreurs apparaissent à l'intérieur de la machine virtuelle, cela indique clairement un vrai problème matériel? IE, ce n'est pas seulement une bizarrerie VMware?
Josh
@Josh Si vous avez présenté directement le lecteur SATA à la machine virtuelle, vous le verrez certainement. Pour le stockage sur fichiers, je suis moins certain; il se peut que votre magasin de données soit à court d'espace.
sysadmin1138
J'aurais dû clarifier cela. Il s'agit d'un stockage sur fichier. Le magasin de données a beaucoup d'espace: c'est un lecteur de 1 To et le VMDK fait 600 Go, rien d'autre n'est sur le disque. Quoi qu'il en soit, c'est clairement quelque chose de mal, donc à moins que quelqu'un d'autre ne me donne une explication claire de ce que cela pourrait être, je remplacerai le lecteur.
Josh