Dans le cadre du provisionnement des serveurs, nous exécutons HP Insight Diagnostics pour tester le matériel. Il s'agit d'un processus manuel. Existe-t-il un moyen d'automatiser l'exécution d'Insight Diagnostics?
Il existe le logiciel hpdiags avec l'option "-rd:" "Exécuter un diagnostic de tous les périphériques diagnostiquables." D'après mes tests, cela ne fait pas grand-chose (il lit simplement les informations SMART sur les disques). Quelqu'un a-t-il eu plus de chance avec ça?
Matériel: BladeCenter c7000 avec lames HP ProLiant BL460c, DL360s.
OS: ESXi et Ubuntu.
hardware
hp
hp-proliant
automated-testing
Mark Wagner
la source
la source
I updated the ticket with the requested info
- Ça m'a fait rire. Ce n'est pas le helpdesk.Réponses:
Je vais donc poser une autre question:
Pourquoi est-il nécessaire d'exécuter les diagnostics matériels HP Insight sur les serveurs avant le provisionnement?
Dans mon commentaire ci-dessus, j'ai indiqué qu'il n'y avait pas grand-chose à gagner à le faire de manière préventive dans les grands environnements HP ProLiant. Je devrais clarifier mes pensées à ce sujet ...
Par ordre décroissant de fréquence, examinons les types de problèmes que vous rencontrez généralement:
Baie de stockage et disques : le contrôleur RAID rendra compte au système d'exploitation, aux journaux, à SNMP, aux e-mails, au BIT et allumera de jolies lumières pour indiquer la santé.
RAM : Le processus POST détectera l'état de la RAM, ainsi que les rapports du système au système d'exploitation, les journaux, SNMP, les e-mails, l'OIT et allumer un indicateur LED sur le Systems Insight Display (SID) du panneau avant . De plus, je ne suis pas un fan des processus de rodage de la RAM car la détection d'erreurs de ces systèmes est déjà robuste.
Thermique et ventilateurs : la température du serveur et la vitesse du ventilateur sont réglementées par l'OIT. Il y a plus de 30 capteurs de température sur ces systèmes , donc le système de refroidissement est extrêmement efficace. Cela rend toujours compte au système d'exploitation, aux journaux, au SNMP, au courrier électronique et au SID.
Alimentation : l'état de la PSU est signalé au système d'exploitation, aux journaux, au SNMP, aux e-mails et au SID, ainsi qu'à un voyant lumineux réel sur l'unité d'alimentation réelle.
Santé globale : Ceci est facile à évaluer d'un coup d'œil avec l'écran SID, en plus de la LED de santé interne et de santé externe. Cela est également signalé dans les journaux du serveur, SNMP, le courrier électronique et l'OIT.
Je ne peux penser à aucune condition qui serait trouvée avant le déploiement qui ne serait / ne pourrait pas être signalée pendant l'exécution ou après l'installation du système d'exploitation.
La boucle de diagnostic ne trouve généralement rien lorsqu'elle est exécutée sur un système sans problèmes antérieurs évidents. Cela est principalement dû au fait que le serveur doit POSTER et démarrer dans l'utilitaire ou le micrologiciel Intelligent Provisioning pour exécuter l'utilitaire.
Autrement dit, tout élément qui serait un "SPOF" sérieux pour le serveur empêcherait probablement le système d'exécuter ses autodiagnostics.
Les éléments d'échec les plus courants sont encore assez robustes; les disques doivent être en RAID et remplaçables à chaud. Les ventilateurs et les blocs d'alimentation sont également remplaçables à chaud. Votre RAM a des seuils ECC et il existe des options de rechange en ligne pour la plupart des plates-formes ProLiant. Il n'y a rien que vous puissiez faire pour provoquer une défaillance de ces composants en exécutant des diagnostics. Ajoutez le fait que vous utilisez des boîtiers lames HP C7000, qui ont des redondances internes , et votre incidence de défaillance devrait être assez faible.
la source