Identification de la cause du redémarrage du serveur

8

J'ai un HP ProLiant DL380p Gen8 qui exécute VMWare ESXi 5.5 . Il s'est redémarré à des intervalles apparemment aléatoires au cours des dernières 24 heures. Il n'y a qu'une seule machine virtuelle en cours d'exécution, et même si je l'arrête, l'hôte redémarrera toujours. Le serveur ne manque pas de mémoire ou d'espace disque, et pour autant que je sache, il ne surchauffe pas. J'ai essayé de parcourir les fichiers journaux, mais il y a tellement de choses à regarder.

Quelles sont les étapes les plus importantes pour diagnostiquer ce problème (y compris les paramètres à vérifier, les fichiers à consulter, le message spécifique indiquant un problème, si je commence à extraire de la mémoire, existe-t-il un CD de diagnostic qui fait tout cela pour moi, etc.) ?

Je sais que c'est une question très large. Je suis heureux de fournir des fichiers journaux si nécessaire pour rendre cela plus spécifique à ma situation.

nachito
la source

Réponses:

9

Voici quelques suggestions.

  • Votre OIT est-il connecté et configuré? Il vous dira exactement ce qui se passe avec le système. Veuillez consulter le journal ILO4.

  • Afficher le journal IML du système (disponible via l'onglet "matériel" de l'OIT ou de vSphere)

  • Y a-t-il des indicateurs ou des messages d'erreur à l'écran lors d'un crash ou au POST?

  • Utilisez-vous l'installation HP spécifique à ESXi (inclut des pilotes et des outils supplémentaires)

  • Quelle version et numéro de build d'ESXi utilisez-vous?

  • Si la machine virtuelle que vous exécutez est un invité Windows 2012 ou 2008, vous rencontrez peut-être un bogue de pilote NIC .

  • Vérifiez vos connexions d'alimentation. Avez-vous deux alimentations? Réinstallez les câbles d'alimentation un par un.

  • Examinez la matrice de voyants System Insight à l'avant du serveur pour déterminer s'il existe un problème de santé interne.

entrez la description de l'image ici

ewwhite
la source
2
Et APPELER LE FOURNISSEUR POUR LE SOUTIEN, aussi. Vous pouvez et devez passer un certain temps à vous enquêter, mais s'il s'agit d'un serveur important, il doit faire l'objet d'un accord de support.
mfinni
Je n'avais pas créé l'OIT, merci beaucoup pour cette suggestion. Une fois qu'il a été configuré, j'ai vérifié le journal et l'ai trouvé System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Je vais le faire réparer tout de suite.
nachito
Cela signifie que votre salle de serveurs ou votre environnement est trop chaud. Cela entraînerait également une lumière ROUGE sur la LED de température dans l'image ci-dessus. Selon le moment où vous avez déployé ce serveur, vous pouvez également souhaiter exécuter des mises à jour du micrologiciel sur le système.
ewwhite
Je pense que ce qui se passe, c'est que l'échappement d'un autre rack est trop proche de l'admission pour cette machine, car la pièce elle-même est un 72F cool. Quand j'ai eu l'œil sur la machine lors de son redémarrage, j'ai vu le flash OverTemp pendant une fraction de seconde. Pas surpris, je n'ai jamais vu ça avant, si vous clignez des yeux au mauvais moment, vous le manquez complètement
nachito
3
@nachito J'espère que vous savez que l'OIT et le serveur peuvent vous envoyer des alertes de santé, comme cette condition de température ...
ewwhite