Pourquoi la connectivité de ma machine virtuelle HyperV perd-elle au hasard?

10

J'ai un étrange problème de connectivité intermittent qui se produit environ une fois toutes les deux semaines.

Tout d'abord ma configuration: j'exécute un cluster de basculement HyperV avec deux hôtes physiques (node01 et node02). Les hôtes exécutent tous les deux le serveur Windows Server 2008 R2 HyperV (le serveur gratuit) avec SP1. Sur ces hôtes, j'exécute deux machines virtuelles exécutant chacune l'édition Web de Windows Server 2008 R2 avec SP1. Mon serveur de stockage est Windows Storage Server 2008 connecté via iSCSI. Les deux hôtes ainsi que le serveur de stockage exécutent les derniers pilotes réseau téléchargés directement depuis le site Web d'Intel.

Voici le problème: 99,99% du temps, tout fonctionne parfaitement. Environ une fois toutes les deux à trois semaines, les machines virtuelles perdront simultanément la connectivité réseau, entrante et sortante. Quand cela arrive,

  1. Je ne peux pas RDP dans aucune VM.
  2. Je peux RDP dans l'un ou l'autre hôte.
  3. Je peux me connecter à l'une des machines virtuelles à partir du gestionnaire de cluster de basculement en cliquant avec le bouton droit sur le nœud et en sélectionnant «Se connecter à la machine virtuelle»
  4. Une fois que je me suis connecté à la machine virtuelle comme décrit au point 3 ci-dessus, je ne peux accéder à aucun site Web ou machine sur le LAN. La désactivation et la réactivation de la connexion réseau virtuelle à l'intérieur de la machine virtuelle ne résolvent pas le problème.
  5. Si je déplace la machine virtuelle vers un autre nœud, cela résout le problème (pour les deux prochaines semaines).
  6. Si je redémarre l'hôte et y ramène la machine virtuelle, cela résout le problème (pour les deux prochaines semaines).
  7. Lorsque cela se produit, le cluster de basculement ne bascule PAS automatiquement la machine virtuelle.
  8. Il n'y a aucune entrée inhabituelle dans le journal des événements sur les hôtes ou les machines virtuelles.

Cela s'est produit environ 5 fois avec les mêmes symptômes que ceux décrits ci-dessus. Je soupçonne un problème de pilote de réseau ou de matériel réseau, mais comme j'utilise déjà les derniers pilotes, je ne sais pas quoi faire à ce sujet.

C'est un vrai coup de tête ... des idées?

Mise à jour

J'ai trouvé un cas très similaire ici: Virutal Machine perd la connectivité réseau sur Hyper V Cluster

Mise à jour 29/07/2011

Après avoir installé des correctifs et mis à jour les pilotes réseau, je rencontre toujours le même problème. En réponse au commentaire demandant des détails sur le matériel, le serveur est un Intel SR1670HV, qui est un châssis 1U contenant deux cartes mères S5500HV indépendantes. La communication se fait via les cartes réseau intégrées des cartes mères qui sont Intel 82574L. Le pilote réseau est la version 16.2.49.0.

Mike
la source
pouvez-vous ajouter des détails sur votre matériel (nombre de cartes réseau)
Jim B
Quelle marque / modèle de cartes réseau avez-vous sur le serveur?
Chris S
Informations sur le matériel et les cartes réseau ajoutées ci-dessus.
Mike
Par quel commutateur de marque / modèle vous connectez-vous?
ErnieTheGeek
J'ai eu un problème similaire avec les images CentOS sur un serveur MS hyperV. Avez-vous des cartes réseau dédiées pour chaque machine ou une carte réseau partagée? Une fois que nous sommes passés aux
cartes réseau

Réponses:

7

Nous avions un problème comme celui-là où je suis. Je ne me souviens pas des détails exacts, mais la solution finale concernait une adresse MAC conflictuelle affectée dynamiquement à une carte réseau virtuelle. Les épingler à ce qu'ils n'étaient pas dynamiques a beaucoup aidé. Normalement, vous ne voulez pas faire cela car cela peut rendre plus difficile le déplacement d'une machine virtuelle vers un hôte différent, mais cela nous a aidés dans ce cas.

L'autre partie est que les cartes réseau physiques ont été créées par Broadcom et nous avons également rencontré une erreur de configuration, où un administrateur précédent avait incorrectement essayé d'utiliser l'utilitaire Broadcom pour regrouper les deux cartes réseau sur l'hôte afin d'améliorer la bande passante / le débit. Nous avons supprimé cette installation et configuré l'une des cartes réseau afin qu'elle n'ait aucune adresse IP sur la machine hôte, mais qu'elle puisse toujours être utilisée pour le passage aux invités virtuels. Ensuite, nous configurons chaque machine virtuelle pour n'utiliser qu'un nic ou l'autre, en équilibrant la charge en fonction du trafic historique. Bien sûr, cela ne signifie pas de basculement si un adaptateur ou une connexion tombe en panne, et nous n'avons pas bien suivi pour voir si le trafic est resté équilibré au fil du temps, mais il est resté stable depuis lors.

Joel Coel
la source
5

Je sais que c'est une vieille question, mais j'ai rencontré le même problème et j'ai perdu tellement de temps à le résoudre que j'ai pensé partager la solution qui fonctionnait pour moi. J'ai trouvé la solution à mon problème ici:

http://invendows.wordpress.com/2008/03/06/network-issue-with-hyper-v/

La solution dans ma situation était de désactiver le déchargement TCP sur les machines virtuelles. Je citerai la section pertinente du lien:

Afin de désactiver le déchargement TCP, j'ai dû créer et définir une nouvelle valeur de registre dans chaque machine virtuelle connectée à la carte réseau Broadcom 8507 Nextreme II.

J'ai utilisé la modification de registre suivante pour désactiver le déchargement TCP:

Clé: HKLM \ SYSTEM \ CurrentControlSet \ Services \ Tcpip \ Parameters

Valeur (DWORD): DisableTaskOffload = 1

Après avoir désactivé le déchargement TCP sur chaque machine virtuelle de cette façon, tous les problèmes étaient terminés et j'ai pu connecter plusieurs machines virtuelles à un port NIC de la carte réseau Broadcom 5708 Nextreme II.

Mon serveur possède des Broadcom NetExtremecartes réseau, il semble donc que la cause de ce problème était définitivement liée au pilote, mais le paramètre DisableTaskOffload= 1 a complètement résolu le problème pour moi. J'espère que ces informations épargneront à quelqu'un d'autre des heures de recherche!

BruceHill
la source
1
+1, merci pour cette astuce, je cours depuis quelques jours sans aucun problème.
m0dest0
1
Pas de problème, m0dest0. Heureux d'entendre que cela vous a aidé. :)
BruceHill
3

J'ai rencontré quelque chose de similaire dans un environnement Hyper-V beaucoup plus simple et j'ai parcouru cet article chez Microsoft. Semble correspondre à votre situation si les serveurs Web sont fortement utilisés.

http://support.microsoft.com/kb/974909 - La connexion réseau d'une machine virtuelle Hyper-V en cours d'exécution est perdue en cas de trafic réseau sortant important sur un ordinateur Windows Server 2008 R2

Christophe
la source
L'article de la base de connaissances auquel vous faites référence était avant le SP1, mais j'ai fait un article similaire après le SP1 qui semble prometteur: support.microsoft.com/kb/2263829
Mike
1
J'ai supprimé cela comme réponse car j'ai installé le correctif mais le problème persiste. Par conséquent, cette question reste sans réponse ...
Mike
2

Nous avons eu ce même problème, mais dans notre cas, c'était toutes les 24 à 48 heures. Je revérifierais que votre produit antivirus / pare-feu prend spécifiquement en charge Server 2008 avec Hyper-V, sinon, essayez un autre (ou supprimez temporairement si possible) votre produit antivirus / pare-feu comme test pour voir si le problème disparaît .

Après un appel à Microsoft et plusieurs téléchargements de fichiers journaux / vidages plus tard, ils ont déterminé que TrendMicro OfficeScan était le coupable dans notre cas. Nous utilisions une version qui s'est avérée ne pas être explicitement prise en charge sur Hyper-V, une fois la mise à niveau vers la dernière version terminée, le problème a disparu.

Jesse
la source
2

Cela s'est avéré être un problème matériel - j'ai isolé le problème à un commutateur géré Netgear GSM7224v2, l'ai remplacé par un D-Link DGS-1024D, et tout fonctionne bien depuis.

En tant que «leçon apprise», dans ce cas, j'ai probablement dépensé 99% de mon effort de diagnostic pour dépanner les paramètres logiciels pour ce qui s'est avéré être un problème matériel. J'ai même payé 259 $ au support Microsoft (et j'ai passé beaucoup de temps au téléphone avec eux) pour m'aider à le comprendre en fouillant dans les paramètres du logiciel. Je suppose que la morale de l'histoire est de soupçonner votre matériel autant que votre logiciel.

Mike
la source
1

Sur les propriétés de l'adaptateur réseau pour l'invité VM, avez-vous désactivé les paquets Jumbo et le déchargement d'envoi volumineux? Sur la base de mon expérience avec ces paramètres, je l'essayerais certainement.

Greg Askew
la source