Comment un invité dans ESX peut-il trouver des problèmes io comme celui-ci?
[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current]
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
- physiquement, les données sont sur des vmfs stockés dans un tableau raid6 (adaptec 5805), ce qui semble heureux
- l'hôte ESX n'enregistre aucun problème
- la taille du disque signalée par l'invité semble identique à la taille du disque provisionnée
- via esx, l'invité a 9 «disques» égaux connectés et seulement 2 présentent ce problème
linux
vmware-esxi
Tobi Oetiker
la source
la source
dd if=/dev/sdg bs=512 skip=430203455 count=1
pour relire ou simplementbadblocks -w -b 512 /dev/sdg 430203457 430203455
pour faire un cycle lecture-test-écriture-réécriture si vous vous sentez courageux.Réponses:
J'ai connu une chose similaire sur le volume de sauvegarde pour MS SQL dans Win 2008 invité sous ESX 4.0 - c'est un volume brut exposé à partir du serveur de fichiers NetApp.
Le système d'exploitation invité signale (et signale toujours) des secteurs défectueux sur ce volume.
Je pense que cela s'est produit en raison d'un trop grand nombre d'opérations d'écriture d'E / S, d'un délai d'expiration temporaire ou d'une surcharge de filer.
Plus de mauvais secteurs signalés. NetApp "nettoyage de disque" dit que tout va bien. Aucune erreur de déclarant signalée.
Mais nous allons recréer ce volume de toute façon et voir si cela résout ce problème.
Et vos autres volumes sur ce filer? Pouvez-vous vérifier ce volume avec la commande "badblocks / dev / sdg"? (attention: énorme surcharge de lecture)
la source
C'était un problème matériel / firmware après tout. Alors que l'Adaptec 5805 (avec le dernier micrologiciel) signalait que tous les volumes RAID6 étaient dans un état optimal, il a également signalé un volume contenant des «bandes défaillantes». L'effet semble être qu'une partie du volume RAID6 devient illisible (provoquant les erreurs citées dans la question). ESX ne semble pas voir cela directement, mais l'exécution
dd if=/dev/zero of=file-on-damaged-volume
directe sur la console ESXi s'est terminée par une erreur d'E / S alors qu'il y avait encore beaucoup d'espace sur le volume.Aucune quantité d'exécutions arcconf verify / verify_fix sur les volumes et les périphériques physiques n'a pu détecter ou réparer quoi que ce soit ... Finalement, j'ai éloigné toutes les données du volume et je les ai recréées au niveau adaptec. Maintenant, tout va bien, mais ma confiance dans la capacité d'adaptec à protéger mes données est gravement compromise.
la source