Comment puis-je demander à mes serveurs HP de m'envoyer un e-mail lorsqu'un disque tombe en panne?

11

Idéalement, avec une installation aussi simple que possible et sans nécessiter de redémarrage des serveurs. Surtout DL380 G5'ssi ça aide.

DrZaiusApeLord
la source
Dommage qu'ils ne soient pas des G7, ou vous pourriez utiliser HP Insight Manager.
Tom O'Connor
Vos serveurs fonctionnent-ils sous Windows ou Linux?
Tom O'Connor
Quels systèmes d'exploitation utilisez-vous sur ces serveurs?
ewwhite
Ils sont tous 2003 ou 2008 à la fois vanille et R2. J'ai joué avec SIM, mais il n'a pas pu parler à mon G5.
DrZaiusApeLord
La carte SIM doit toujours être compatible avec G5 ProLiants. Avez-vous installé les agents lors de votre première tentative?
ewwhite

Réponses:

16

Cela dépend légèrement des systèmes d'exploitation que vous exécutez sur les serveurs, mais en général, il est possible d'obtenir des alertes des serveurs HP ProLiant et des contrôleurs RAID Smart Array.

La liste complète des pilotes et du support logiciel pour vos systèmes DL380 G5 est répertoriée ici .

SNMP et une solution de surveillance sont la meilleure approche ... Mais vous pouvez augmenter cela avec certains des outils HP. HP propose HP Systems Insight Manager , qui peut être téléchargé et est également fourni avec les serveurs. Ceci est idéal pour les collections de serveurs. Si vous recherchez des alertes ponctuelles sans créer une infrastructure de gestion ou de surveillance, vous pouvez simplement installer les HP Management Agents (aka ProLiant Support Pack ).

Pour les systèmes Linux autonomes, les agents enverront des interruptions par e-mail. Je vais généralement configurer le pack de support avec des valeurs par défaut ou un ensemble personnalisé , puis modifier /opt/hp/hp-snmp-agents/cma.confet modifier la trapemailligne pour pointer vers l'adresse du destinataire:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]

Si vous utilisez Linux et que vous ne souhaitez pas installer la suite de gestion HP complète, vous pouvez développer un script autour de l' utilitaire cciss_vol_status pour interroger l'état du contrôleur / disque. Voir également: Installation d'agents HP sur OpenFiler

ewwhite
la source
une manière élégante de tester une alerte pour une panne de matrice RAID, autre que de retirer un lecteur de l'emplacement? J'ai quelques ProLiant DL360 G7serveurs et HP SIM configurés pour la surveillance.
Banjer
Pas que je sache de. Les agents Insight fonctionnent définitivement. Si vous pouvez voir l'état de la baie via l'utilitaire hpacucli et que vous savez que vous recevez des alertes dans HP SIM, je pense qu'il est juste de supposer que les choses fonctionneront.
ewwhite
3

J'ai utilisé le programme léger mentionné par @ewwite dans sa réponse: cciss_vol_status

Si vous suivez les instructions d'installation qui l'accompagnent, le script est placé dans /usr/local/bin/cciss_vol_status.

Voici un script wrapper que j'utilise pour grep la sortie de cciss_vol_status et envoyer un e-mail si un tableau a le statut FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Appelez le script ci-dessus dans cron. Je lance le contrôle toutes les deux minutes:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Nous utilisons HP System Insight Manager pour vérifier si nos HP sont opérationnels, mais rien de plus. J'ai trouvé que l'agent Linux était excessif pour nous, car nous avons d'autres solutions de surveillance en place, donc ce script ci-dessus remplit bien son objectif spécifique.

MISE À JOUR

Juste un conseil de dépannage au cas où vous rencontriez cela. Ce script s'est avéré utile ce matin lorsque j'ai reçu un e-mail concernant un tableau défaillant avec:

Limite de cache sale atteinte

L'appareil est passé en lecture seule et n'était pas visible dans /proc/partitions. J'ai redémarré le serveur et j'ai vu ces messages au démarrage:

Disque (s) logique (s) désactivé (s) en raison d'une possible perte de données. Sélectionnez "F1" pour continuer avec les unités logiques désactivées Sélectionnez "F2" pour accepter la perte de données et pour réactiver les unités logiques

J'ai sélectionné F2 et le RAID était bien et monté au démarrage.

Banjer
la source
1

installez smartmontools. Vous envoie un message AVANT qu'un disque tombe en panne.

Stephan
la source
2
~ 30% du temps. SMART n'est pas une solution miracle.
HopelessN00b