LInux: Comment diagnostiquer / isoler la cause des blocages «aléatoires» et des redémarrages spontanés?

20

(initialement publié sur serverfault )

Donc, plutôt que de deviner quelle est la cause (bien que mon argent soit sur les pilotes nvidia), où dois-je commencer à chercher à cerner certains faits?

J'ai parcouru / var / log à plusieurs reprises mais il y a BEAUCOUP de trucs dedans et je ne peux pas (encore) repérer les bits importants.


Contexte: la version courte

Je suis passé de WinXP à Ubuntu Karmic juste après qu'il soit devenu disponible.

Depuis lors, j'ai eu une série d' accidents apparemment aléatoires qui se manifestent comme suit:

  • un redémarrage spontané
  • un verrouillage complet avec mon clavier et ma souris USB qui ne répondent plus (jusqu'à ce que les LED s'éteignent). De plus, je ne pourrai généralement pas accéder à la boîte lorsque cela se produit.

J'ai fait beaucoup de recherches et Nvidia semble être le principal suspect, mais je ne sais pas par où commencer à chercher quelle est la véritable cause.

Un utilisateur par défaut du serveur a suggéré de vérifier la RAM avec MemtextX86 +. Aucune erreur trouvée. La surveillance de la température de la carte vidéo a également été suggérée, que j'examine maintenant.

A part ça, des suggestions quelqu'un?



Contexte: la version longue

Parfois, je peux passer une semaine entière sans accident puis en avoir 5 en 2 jours.

Motivé par le désir d'éliminer d'éventuels suspects, j'ai fait quelques changements au fil du temps en vain:

  • À l'origine, j'utilisais KVM pour la virtualisation, j'utilise maintenant VirtualBox OSE
  • J'avais NFS en cours d'exécution dans le noyau, mais maintenant j'utilise Samba
  • J'utilisais Compiz mais je l'ai depuis désactivé
  • Je suis passé de Karmic 64 bits à 32 bits (pour d'autres raisons également)
  • J'ai essayé Ubuntu, Kubuntu et Xubuntu. Même problème à chaque fois (bien que ces derniers temps, il semble être plus fréquent dans Gnome que dans XFCE).
  • J'ai restauré le pilote Nvidia de la version 185 à la version 96 (NVIDIA Linux x86 Kernel Module 96.43.13 Thu Jun 25 18:42:21 PDT 2009). Cela semble avoir réduit la fréquence des erreurs.


En termes de ce qui fonctionne à l'époque, cela peut varier. Les éléments suivants sont courants mais n'étaient pas nécessairement exécutés pour chaque plantage:

  • Firefox 3.5
  • VirtualBox OSE avec 1 ou 2 machines virtuelles Windows XP
  • Skype
  • Rhythmbox ou Exaile


Mon matériel a 2 à 3 ans:

  • Core 2 Duo 6300
  • 4 Go de RAM
  • une race de carte mère Intel de ce millésime
  • une carte vidéo double tête Asus avec chipset Nvdia GeForce 7300 GS
  • 2 disques durs SATA
  • deux moniteurs (donc je me fie aux pilotes nvidia propriétaires)


Je me suis tenu au courant des mises à jour de mon système.

Espérons que les données ci-dessus pourraient inciter quelqu'un à suggérer un type spécifique de journal ou de configuration qui mériterait d'être étudié.


Mise à jour 1

vient d'avoir un crash dans lequel les haut-parleurs sont devenus fous. J'ai fait quelques recherches sur Google et il semble que PulseAudio ait eu quelques problèmes dans le passé. Je ne sais pas encore si cela est pertinent, mais PulseAudio aura fonctionné chaque fois que j'ai eu un crash.


Update 2

Le lien de @ CarlF vers le guide Debian Sysadmin m'a conduit à la clé magique sysrq que j'essaierai au prochain crash. Non pas que cela me donne beaucoup d'indices sur la cause, mais au moins je l'espère, je pourrai m'arrêter gracieusement.


Mise à jour 3

lm-sensor signale que mon GPU fonctionne à près de 70 ° C / 158 ° F - intéressant. Si je devais deviner, je dirais que c'est un indice important.


Mise à jour 4

Frappez l'intérieur du système avec un airduster peu de temps après ma dernière mise à jour - résultat net: un seul crash depuis. Je vais appeler ça un problème thermique.

LRE
la source
3
Excellente mise en forme et informations générales, je souhaite que toutes les questions soient comme ça. +1.
John T

Réponses:

8

Il y a de bons conseils du Guide de l'administrateur Debian ici: http://www.debian-administration.org/articles/492

CarlF
la source
Intéressant de voir ce qu'ils ont à dire à propos des journaux non informatifs qui sont un signe de réel problème matériel. J'ai un écart de six heures entre la dernière entrée / var / log / message et le redémarrage. Hmmmm.
LRE
acceptée au motif que le lien indiquait clairement que rien dans les journaux ne correspond à un problème matériel - conduisez-moi dans la bonne direction.
LRE
4

La première chose que vous voudrez peut-être vérifier s'il y a des problèmes matériels lors du démarrage. Le processus de démarrage enregistrera les données du tampon d'anneau du noyau dans /var/log/boot.log. Après le démarrage du système, les nouveaux messages sont vidés dans ce tampon et vous pouvez afficher son état actuel avec la dmesgcommande. Un journal important que vous voudrez également étudier est /var/log/messages. Celui-ci contiendra les horodatages, les installations et les priorités des erreurs et l'application qui les a générées. La disponibilité d'un horodatage est un atout inestimable lors du débogage des erreurs.

Les blocages aléatoires sont définitivement liés au matériel. Essayez de réinstaller tout le matériel sur la carte mère et donnez-lui un exécutez memtest86 + .

John T
la source
Je vois une ligne dans / var / log / messages qui dit "imklog 4.2.0, log source = / var / run / rsyslog / kmsg démarré". Est-ce un bon indicateur d'un démarrage du système? Si c'est le cas, je peux l'utiliser pour localiser une zone du journal à partir de laquelle je peux numériser.
LRE
Oui, je pense que c'est l'une des premières, sinon la première ligne après un démarrage. Il s'agit du module d'entrée du journal du noyau.
John T
2

Avez-vous essayé de réinstaller votre mémoire, votre processeur et d'autres puces? En outre, vous voudrez peut-être essayer d'exécuter un autre système d'exploitation (FreeDOS) pour éliminer certaines possibilités.

En guise d'astuce, vous devriez également pouvoir utiliser assez bien deux moniteurs via Gnome sans utiliser les pilotes nvidia.

Nerdfest
la source
Au mieux, j'ai pu dire que j'avais vraiment besoin des pilotes propriétaires nvidia pour utiliser deux moniteurs. Tu es capable de m'orienter dans la bonne direction pour ne pas en avoir besoin?
LRE
Je me trompe peut-être. J'ai fouillé un peu et je vois des références à xinerama (pour lequel je pense que le pilote a des extensions) mais rien concernant les pilotes non propriétaires. Malheureusement, je n'ai pas de machine avec une carte nVidia pour jouer avec.
Nerdfest