Un outil inconnu essuie nos machines virtuelles et nous ne pouvons pas l'identifier

18

Une vue de console d'une machine virtuelle Windows 2008 R2, sur vSphere affiche l'écran suivant:

Capture d'écran du programme

"Opération 2 sur 2" "Disque d'essuyage"

Quelqu'un peut-il vous conseiller sur ce qu'est ce programme?

Quelques informations sur ce mystère:

Un certain nombre de VM sont désormais effectuées. Le symptôme apparaît après le redémarrage du message "OS non trouvé".

  • Les VM s'exécutent sur ESXi. Les machines virtuelles s'exécutent sur une banque de données particulière
  • Netapp NFS Le montage du disque dans une boîte de travail ne montre aucune table de partition, n'a pas encore pu effectuer de vidage hexadécimal.
  • La VM n'a pas été réinitialisée à chaud, devrait être une réinitialisation logicielle lancée par le système d'exploitation
  • Il n'y a PAS d'iso monté Il n'y avait pas d'accès "non invité" à la VM, il faudrait donc qu'il soit RDP ou similaire
  • Les sauvegardes sont effectuées à l'aide du logiciel de sauvegarde netapp pendant la nuit
  • NFS en question est à provisionnement fin sur le back-end (niveau de la baie) et a manqué d'espace juste après avoir vu ces problèmes.
Rqomey
la source
1
Avez-vous confirmé qu'aucun serveur PXE configuré nulle part ne pourrait faire cela?
Dan
@DAN no PXE est récupéré au redémarrage de la machine virtuelle - d'où le "no os found" sauf s'il s'agit d'une configuration pxe très ciblée. De plus, NFS manque de stockage / PEUT / être causé par une écriture complète sur disque de cet outil
Rqomey
1
Est-ce limité à vos machines virtuelles Windows ou à toutes les seules machines virtuelles que vous avez sur cet hôte?
MDMoore313
9
Basée uniquement sur la conception de la fenêtre, les chaînes qu'elle contient, comme une poignée de captures d'écran similaires, il semble que l'outil soit quelque chose de construit par Acronis. Voici un exemple d'un outil Acronis construit pour Seagate (cliquez sur "Suivant" plusieurs fois pour le voir) qui ressemble beaucoup.
Moshe Katz
1
J'ai vu une disposition d'interface utilisateur similaire dans Acronis Disc Director. Apparemment, il a une fonction "nettoyer le disque" (googlé), que je n'ai jamais utilisée. Il semble fonctionner sur votre invité. Vous le configurez via l'interface graphique (peut-être qu'il a également un exe en ligne de commande) et ce genre de choses se produit au redémarrage.
Daniel F

Réponses:

10

Malheureusement, il semble que nous ne puissions pas aller au fond de la demande, mais pour obtenir une certaine valeur de cet incident, je voulais créer une réponse de référence. Il s'agit de VMware et de la gestion de la couche virtuelle. Beaucoup d'administrateurs sont séparés et ne peuvent pas obtenir rapidement l'accès invité ou de stockage, et c'est pour eux :)

http://support.seagate.com/kbimg/flash/laptop/Laptop.swf semble être la correspondance la plus proche d'une application réelle trouvée par @MosheKatz.

Si cela arrivait à l'avenir, l'enquête devrait être la suivante:

  • Vous remarquez que certaines machines virtuelles, mais pas toutes, sont tombées en panne. Vous pensez que cela est dû à un problème de stockage (car c'est généralement la cause la plus probable)
  • Essayez d'abord d'isoler un facteur commun. Toutes les machines virtuelles en panne partagent-elles la même banque de données? Dans ce cas, ils l'étaient, mais certaines machines étaient correctes, nous avons donc exclu les problèmes matériels évidents.
  • Vérifiez toutes les machines virtuelles cassées pour voir s'il y avait un facteur commun (temps, fonction, etc.). Dans ce cas, il n'y en avait pas.
  • Vérifiez les autres événements inhabituels. Quelque chose a soulevé un drapeau ici:

    • Le stockage NFS était à support fin (au niveau de la baie). Cela signifie que bien que par exemple. 200 Go sont présentés aux hôtes ESXi, en fait seulement 100 Go sont disponibles. Cependant, seul le tableau possède cette connaissance. Ce que nous avons constaté, c'est qu'un certain nombre de machines virtuelles ont été interrompues car elles manquaient d'espace disque. Nous pensions que cela pouvait être la cause principale, donc notre première action a été d'allouer plus de stockage sur le back-end, pour supprimer cela comme un problème.
  • Une fois que cela a été résolu (un simple changement d'interface utilisateur) et que les machines virtuelles suspendues redémarraient avec succès, nous sommes revenus au problème d'origine. Nous avons monté les disques virtuels des machines virtuelles cassées sur une machine virtuelle fonctionnelle et nous avons constaté qu'il n'y avait pas de table de partition sur les disques. Nous n'avions pas de visionneuse hexadécimale disponible, donc nous devions supposer que les disques étaient maintenant vides.

  • Le système de surveillance a alerté d'une nouvelle machine virtuelle qui ne répondait tout simplement pas. C'était génial, car une charge de machines virtuelles avait quelques minutes avant de ne plus répondre en raison du problème d'espace disque, donc le fait que cette nouvelle machine virtuelle ait été trouvée rapidement était un signe de bonne administration de la surveillance.

  • Nous avons ouvert une console et vérifié l'invité, et avons vu la capture d'écran ci-dessus.

    • À ce stade, je suis allé dans la salle de discussion sur les pannes du serveur pour voir si le programme pouvait être identifié, tandis que mon collègue de stockage vérifiait tous les journaux et événements de la couche virtuelle, pour m'assurer qu'aucune opération de stockage ne s'exécutait depuis notre zone.
  • Ce que nous aurions dû faire était de suspendre la machine virtuelle, d'autoriser l'écriture du fichier de suspension et d'analyser le vidage pour voir si le programme en cours d'exécution pouvait être identifié. Suspendre la machine virtuelle au noyau PDF VMware KB

À la fin de la journée, nous le savions et les outils d'infrastructure virtuelle n'auraient pas signalé au sein d'un invité comme le faisait ci-dessus. Nous avons pu voir qu'il n'y avait pas de montage ISO et aucun événement enregistré sur la machine virtuelle. Nous avons pu voir que la machine virtuelle n'était pas un «redémarrage forcé», seulement un redémarrage en douceur (cela est invisible pour l'infrastructure sous-jacente). Nous savions que ce n'était pas du côté du stockage car nous l'avions déjà exclu. Nous soupçonnions qu'il n'était pas automatisé car cela se produisait au cours de quelques heures sur des machines virtuelles spécifiques. Nous avons pensé que ce n'était pas malveillant, car pourquoi la console signalerait-elle l'effacement du disque si c'était le cas :)

Ainsi, la conclusion a été un nettoyage de disque initié par l'utilisateur. C'est aussi loin que soit allé mon enquête, mais j'espère que vous l'avez trouvée utile.

Leçons apprises:

  • Sauvegardez et testez vos restaurations
  • Assurez-vous que tous les utilisateurs, en particulier les utilisateurs administrateurs, savent qu'ils travaillent dans un environnement à allocation dynamique et doivent éviter tout ce qui concerne le formatage du disque en écriture (c.-à-d. Écrire des charges de 1
  • Avoir un bon système de surveillance en place.
  • Et un nouveau pour moi: dans tout grand environnement virtuel, ayez une VM d'outils prête, même hors tension, avec des outils de diagnostic installés; performances, stockage réseau. Si cela était disponible, nous aurions pu monter et effectuer un vidage hexadécimal sur le disque endommagé pour voir s'il était vraiment vide ou s'il manquait juste un mbr. Nous aurions également pu voir s'il était écrit avec des 1.
Rqomey
la source
-1

Je pense que votre problème est une fonctionnalité de récupération d'espace VMware standard.

Cet article peut vous aider: Résolution des questions relatives aux disques virtuels peu gourmands en espace

doc
la source
Salut @ Doc, merci pour les commentaires, mais ce n'est pas le cas. Il s'agit d'une opération sur invité, les non-cartes, etc. devraient être non destructives et ne seront pas signalées à travers une fenêtre de console de cette manière
Rqomey