Le HP ProLiant DL360 G7 se bloque à l'écran «Étalonnage de l'alimentation et du thermique»

41

J'ai un nouveau système HP ProLiant DL360 G7 qui présente un problème difficile à reproduire. Le serveur aléatoire se bloque à la « puissance et d' étalonnage thermique en cours ... » écran pendant le processus POST . Cela fait généralement suite à un démarrage / redémarrage à chaud à partir du système d'exploitation installé.

entrez la description de l'image ici

Le système se bloque indéfiniment à ce stade. La réinitialisation ou le démarrage à froid via les commandes d'alimentation de l'OIT 3 permettent au système de démarrer normalement sans incident.

Lorsque le système est dans cet état, l'interface OIT 3 est entièrement accessible et tous les indicateurs de santé du système sont corrects (tous verts). Le serveur se trouve dans un centre de données climatisé avec des connexions d'alimentation à la PDU. La température ambiante est de 17 ° C. Le système a été placé dans une boucle de test des composants de 24 heures avant le déploiement, sans échec.

Le système d'exploitation principal de ce serveur est VMWare ESXi 5. Nous avions initialement essayé la version 5.0 puis une version 5.1. Les deux ont été déployés via le démarrage PXE et kickstart. De plus, nous testons avec des installations Windows Baremetal et Red Hat Linux.

Les systèmes HP ProLiant disposent d'un ensemble complet d'options BIOS. Nous avons essayé les paramètres par défaut en plus du profil statique haute performance. J'ai désactivé l' écran de démarrage et un curseur clignotant apparaît à cet endroit par rapport à la capture d'écran ci-dessus. Nous avons également essayé quelques "meilleures pratiques" VMWare pour la configuration du BIOS . Nous avons vu un avis de HP qui semble décrire un problème similaire , mais ne résout pas notre problème spécifique.

Suspectant un problème matériel, le fournisseur a envoyé un système identique pour une livraison le jour même. Le nouveau serveur était une version totalement identique à l'exception des disques. Nous avons déplacé les disques de l'ancien serveur vers le nouveau. Nous avons rencontré le même problème de démarrage aléatoire sur le matériel de remplacement.

J'ai maintenant les deux serveurs fonctionnant en parallèle. La question frappe au hasard sur des bottes chaudes. Les bottes froides ne semblent pas avoir le problème. J'examine certains des paramètres du BIOS les plus ésotériques tels que la désactivation de Turbo Boost ou la désactivation complète de la fonction d'étalonnage de l'alimentation. Je pourrais essayer ceux-ci, mais ils ne devraient pas être nécessaires.

Des pensées?

--modifier--

Détails du système:

  • DL360 G7 - 2 x X5670 CPU Hex-Core
  • 96 Go de RAM (12 DIMM basse tension de 8 Go)
  • 2 disques durs SAS 15k de 146 Go
  • 2 alimentations redondantes de 750 W

Tous les micrologiciels mis à jour depuis la dernière version du DVD HP Service Pack pour ProLiant.

En appelant HP et en parcourant Interwebz, j'ai déjà entendu parler d'une mauvaise interaction avec ILO 3, mais cela se produit également avec le serveur sur une console physique. HP a également suggéré une source d'alimentation, mais celle-ci se trouve dans un rack de centre de données alimentant avec succès les autres systèmes de production.

Existe-t-il une possibilité d'interaction médiocre entre les modules DIMM basse tension et les alimentations de 750 W? Ce serveur doit être une configuration prise en charge.

ewwhite
la source
2
Un moyen d'éliminer les disques comme cause possible? Avez-vous une chance de tester avec d’autres disques SAS ou SATA?
ErnieTheGeek
Oui, testé avec un ensemble de disques connu dans le second système. Ils courent en parallèle.
ewwhite
1
La seule fois où j'ai jamais vu cela était dans un système (également un DL360 G7) où j'essayais d'utiliser une carte non-HP pour fournir un stockage. Quand j'ai eu la carte SmartArray et cette autre, il l'a fait. Quand j'ai sorti l'un ou l'autre, ça a passé. Ce n'est pas votre problème, mais je transmets ce que j'ai rencontré.
sysadmin1138
1
Peut-être quelque chose lié au réseau? Essayez de dupliquer sans être connecté au réseau.
ErnieTheGeek
1
@TheCleaner La désactivation du plafonnement dynamique de l'alimentation n'est pas une option sur les serveurs G7. Il a été introduit pour la série Gen8 ProLiant.
ewwhite

Réponses:

43

Ainsi, après avoir introduit un troisième système dans le mélange et rencontré le même problème, nous avons commencé à interroger l'environnement. J'ai retrouvé une copie du Guide de dépannage des serveurs HP ProLiant et trouvé l'organigramme des problèmes POST présenté ci-dessous.

entrez la description de l'image ici

En parcourant soigneusement les étapes du tableau, nous avons réalisé que la seule constante sur tous les serveurs était un commutateur KVM connecté au panier de panne du centre de données. Il s’agissait d’un KVM compatible USB destiné aux consommateurs. Selon le nœud en surbrillance dans l’organigramme, avez-vous connu un bon KVM? , Je ne pouvais pas répondre de manière concluante.

Nous avons donc débranché les serveurs du commutateur KVM et lancé un démarrage automatique, sleep 300; rebootséquence en rc.local. Les serveurs n’avaient aucun problème avec cela, indépendamment du DIMM normal, des DIMM basse tension, de la puissance de l’alimentation, etc.

Tout cela était dû à une mauvaise interaction avec un commutateur KVM USB. En vertu de cette console, cela nous permettait de voir l’échec si nous le recherchions. Auto-réalisant ...

ewwhite
la source
2
Wow, c'est un bon! Content que tu aies discuté de ça.
Nedm
7
Corbeau sacré. +1 pour interroger et répondre. Bon travail; J'aurais probablement oublié cela. "Bien connu"? Bien sûr, on sait bien - ça marche, n'est-ce pas?
Mfinni
Merci beaucoup!!! c'était certainement le KVM. Il suffit de déconnecter la vidéo et de brancher le moniteur directement pour que le serveur fonctionne à nouveau correctement. Après le chargement du système d'exploitation, j'ai rebranché le KVM. Je pense que le problème a été provoqué lorsque j'ai accidentellement touché les câbles à l'arrière du serveur. Le système s’est arrêté et ne fait que réagir à ce conseil.
1
Avez-vous une idée de la manière dont un KVM causerait cela?
TheLQ
@TheLQ Un appareil KVM de niveau consommateur bon marché était la cause ici. Il y a peut-être eu un problème avec le clavier.
ewwhite