Redémarrage soudain de la machine observé avec le minuteur de surveillance ipmiutil

1

Initialement créé sur serverfault en tant que ce question.

J'ai un serveur de production openSUSE 11.1 2.6.34.4 de production avec un ipmiutil-2.4.1 standard installé.

Le chien de garde est essentiellement une minuterie matérielle de 90 secondes annulée toutes les 60 secondes de l'espace utilisateur par une tâche cron.

La cause de l'inquiétude n'est pas le chien de garde qui se redémarre, mais le problème du serveur sous-jacent qui en est la cause, le cas échéant. Le chien de garde IPMI OMI fait son travail pour récupérer le système d'un état irrécupérable.

Le serveur semble être devenu lent / lent. Je dis cela en fonction de «manquant / manquant» / var / log / cron, syslog et d'autres entrées de journal d'application.

Cela s'est produit de manière aléatoire lors de tests de charge. La charge est essentiellement le trafic SIP à un serveur SIP. Le problème n'est pas facilement reproductible, mais il arrive assez souvent. Ce n'est pas non plus déterministe en ce qui concerne le matériel, l'heure et le type de charge en cours d'exécution.

Je suis au bout de mon esprit et je ne sais pas si c'est un mauvais conducteur , un i / o   punaise , quelque chose dans ce sens , l'application SIP ou autre chose.

J'ai de nombreux rapports d'activité système détaillés, à savoir% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, faute / s, majflt / s, pgfree / s, etc. si besoin.

Aucun des rapports d'activité du système n'indique quelque chose d'anormal (bien que je ne prétende pas avoir un œil parfaitement entraîné).

O.P
la source

Réponses:

1

Je ne pense pas que ce soit une bonne idée de définir un travail cron pour cette tâche critique. Notez que cron peut bloquer d'autres tâches avant l'exécution de la tâche de surveillance. comme décrit ici . D'après ce que vous décrivez, en supposant que le système ne présente aucun comportement anormal autre que le redémarrage, il est très probable que la tâche cron ne se soit simplement pas exécutée à temps.

Il existe des démons de surveillance autonomes que vous pouvez utiliser pour réinitialiser le chronomètre toutes les secondes environ. Je vous suggère d'utiliser l'un d'entre eux. Voir BMC chien de garde .

Dan Aloni
la source