Initialement créé sur serverfault en tant que ce question.
J'ai un serveur de production openSUSE 11.1 2.6.34.4 de production avec un ipmiutil-2.4.1 standard installé.
Le chien de garde est essentiellement une minuterie matérielle de 90 secondes annulée toutes les 60 secondes de l'espace utilisateur par une tâche cron.
La cause de l'inquiétude n'est pas le chien de garde qui se redémarre, mais le problème du serveur sous-jacent qui en est la cause, le cas échéant. Le chien de garde IPMI OMI fait son travail pour récupérer le système d'un état irrécupérable.
Le serveur semble être devenu lent / lent. Je dis cela en fonction de «manquant / manquant» / var / log / cron, syslog et d'autres entrées de journal d'application.
Cela s'est produit de manière aléatoire lors de tests de charge. La charge est essentiellement le trafic SIP à un serveur SIP. Le problème n'est pas facilement reproductible, mais il arrive assez souvent. Ce n'est pas non plus déterministe en ce qui concerne le matériel, l'heure et le type de charge en cours d'exécution.
Je suis au bout de mon esprit et je ne sais pas si c'est un mauvais conducteur , un i / o punaise , quelque chose dans ce sens , l'application SIP ou autre chose.
J'ai de nombreux rapports d'activité système détaillés, à savoir% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, faute / s, majflt / s, pgfree / s, etc. si besoin.
Aucun des rapports d'activité du système n'indique quelque chose d'anormal (bien que je ne prétende pas avoir un œil parfaitement entraîné).