Erreur de disque matériel dans ESX Guest, sur un lecteur soutenu par vmfs… comment est-ce possible?

8

Comment un invité dans ESX peut-il trouver des problèmes io comme celui-ci?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
  • physiquement, les données sont sur des vmfs stockés dans un tableau raid6 (adaptec 5805), ce qui semble heureux
  • l'hôte ESX n'enregistre aucun problème
  • la taille du disque signalée par l'invité semble identique à la taille du disque provisionnée
  • via esx, l'invité a 9 «disques» égaux connectés et seulement 2 présentent ce problème
Tobi Oetiker
la source
1
Peut-être un bogue dans la couche d'émulation d'E / S? Avez-vous essayé de changer le type de contrôleur SCSI de l'invité pour voir s'il modifie le comportement? L'accès au secteur spécifié reproduit-il l'erreur? Utilisez-le dd if=/dev/sdg bs=512 skip=430203455 count=1pour relire ou simplement badblocks -w -b 512 /dev/sdg 430203457 430203455pour faire un cycle lecture-test-écriture-réécriture si vous vous sentez courageux.
the-wabbit
Quelle version de noyau avez-vous là-bas? Mettez à niveau votre noyau et voyez si l'erreur persiste.
Sacx

Réponses:

1

J'ai connu une chose similaire sur le volume de sauvegarde pour MS SQL dans Win 2008 invité sous ESX 4.0 - c'est un volume brut exposé à partir du serveur de fichiers NetApp.

Le système d'exploitation invité signale (et signale toujours) des secteurs défectueux sur ce volume.
Je pense que cela s'est produit en raison d'un trop grand nombre d'opérations d'écriture d'E / S, d'un délai d'expiration temporaire ou d'une surcharge de filer.
Plus de mauvais secteurs signalés. NetApp "nettoyage de disque" dit que tout va bien. Aucune erreur de déclarant signalée.

Mais nous allons recréer ce volume de toute façon et voir si cela résout ce problème.

Et vos autres volumes sur ce filer? Pouvez-vous vérifier ce volume avec la commande "badblocks / dev / sdg"? (attention: énorme surcharge de lecture)

TooMeeK
la source
1

C'était un problème matériel / firmware après tout. Alors que l'Adaptec 5805 (avec le dernier micrologiciel) signalait que tous les volumes RAID6 étaient dans un état optimal, il a également signalé un volume contenant des «bandes défaillantes». L'effet semble être qu'une partie du volume RAID6 devient illisible (provoquant les erreurs citées dans la question). ESX ne semble pas voir cela directement, mais l'exécution dd if=/dev/zero of=file-on-damaged-volumedirecte sur la console ESXi s'est terminée par une erreur d'E / S alors qu'il y avait encore beaucoup d'espace sur le volume.

Aucune quantité d'exécutions arcconf verify / verify_fix sur les volumes et les périphériques physiques n'a pu détecter ou réparer quoi que ce soit ... Finalement, j'ai éloigné toutes les données du volume et je les ai recréées au niveau adaptec. Maintenant, tout va bien, mais ma confiance dans la capacité d'adaptec à protéger mes données est gravement compromise.

Tobi Oetiker
la source
1
Ceci est assez cohérent avec la procédure Sun / Oracle pour de telles situations . Il y a aussi cet article de la FAQ Adaptec sur les mauvaises bandes qui donne des informations générales sur la façon dont les mauvaises bandes se produisent et ce qui peut être fait pour les éviter.
the-wabbit
Oui, l'article Sun / Oracle m'a mis sur la bonne (triste) piste. Nous avions un disque défectueux dans cette baie, mais il faisait un raid6, donc même alors il y avait de la redondance, aucune des vérifications de média ultérieures n'a révélé d'erreurs avec les disques restants ... le contrôleur adaptec a également un BBU donc je ne vois pas vraiment aucune excuse pour ce comportement :-( Jamais eu de tels problèmes avec nos contrôleurs areca.
Tobi Oetiker
Je n'utilise presque jamais de contrôleurs Adaptec et je maintiens principalement le stockage LSI, mais c'est la première fois que je tombe sur de "mauvaises rayures". Je me demande si c'est quelque chose de très spécifique à l'implémentation d'Adaptec.
le-wabbit du