noyau: erreur d'E / S de validation de journal

9

J'ai des problèmes avec un serveur Dell 1950. J'installe RHEL 4.6 avec Oracle et d'autres logiciels ici.

Je reçois au hasard un message d'erreur disant "kernel: journal commit I / O error" sur ma session ssh et sur le moniteur Je me suis connecté au serveur Je vois une erreur de défilement qui dit "erreur EXT3-fs (périphérique sda5) dans start_transaction: le journal a été abandonné. "

Cela s'est produit plusieurs fois mais jamais au même moment lors de l'installation. En fait, cette dernière fois, le système était opérationnel et j'essayais juste d'importer une base de données dans Oracle.

Cela s'est produit sur plusieurs disques durs, donc je suis sûr que ce n'est pas le problème. Cela me fait penser que le contrôleur de raid va mal.

Qu'en pensez-vous?

** MISE À JOUR **

Je suis sûr que c'était un mauvais disque dur. J'ai jeté un autre disque dans le serveur et il fonctionne depuis environ 48 heures sans problème.

jasondewitt
la source

Réponses:

9

J'ai vu ces erreurs avant, mais pas pendant le processus d'installation.

Cela signifie que le lecteur a reçu suffisamment d'erreurs que le système d'exploitation l'a mis en mode lecture seule. Si vous pouviez trouver les journaux complets, il y aurait probablement des erreurs d'E / S qui ont réessayé et travaillé avant les erreurs d'échec complet que vous avez vues. Quelque chose avec des blocs réels mentionnés.

C'est une erreur du système de stockage. Il s'agit certainement de la carte RAID, des disques de la matrice RAID, des câbles de la carte aux disques, du fond de panier auquel les disques se connectent, de l'emplacement sur lequel la carte RAID est branchée, de l'alimentation des disques durs ou de quelque chose d'autre entre la CPU et les blocs de stockage réels.

freiheit
la source
2

Trois possibilités viennent à l'esprit:

  1. Il y a des problèmes de mémoire (ils provoquent souvent des plantages "aléatoires"). Si vous avez un RAM ECC là-dedans, alors c'est évidemment moins probable.

  2. Il y a un problème avec le bus. J'ai eu le même problème avec un contrôleur APIC cassé sur une carte mère Tyan double Opteron il y a quelques années. Il y avait d'autres entrées de journal qui y faisaient allusion, mais la majeure partie des symptômes étaient une corruption aléatoire sur les lecteurs de disque avec des remontées automatiques en lecture seule. Dans mon cas, je savais que ce n'était pas lié au disque car c'était une boîte FC RAID externe et c'était bien.

  3. Le contrôleur RAID est superposé.

C'est dans l'ordre où je considérerais les problèmes.

Alexandre Carmel-Veilleux
la source
Probablement pas de problèmes de mémoire; ceux-ci seraient plus susceptibles de provoquer des erreurs de segmentation et plus d'erreurs aléatoires, ne se limiteraient pas uniquement au stockage.
freiheit
Vrai. Mais dans une situation d'installation ou de démarrage précoce, la majeure partie de l'utilisation de la mémoire est le tampon-cache, donc les problèmes ont tendance à y apparaître en premier. Une fois que la machine a exécuté une certaine charge pendant un certain temps, le processus utilisateur domine les E / S de mémoire et donc la prévalence du défaut de segmentation. Cela étant dit, un PE1950 devrait avoir des processeurs Xeon et un ram ECC pour que la RAM puisse le détecter et le signaler à Linux.
Alexandre Carmel-Veilleux
2

Ce pourrait être le contrôleur RAID qui va mal comme vous l'avez dit (essayez un de rechange si vous en avez un.) Ce pourrait être le pilote du contrôleur (recherchez des pilotes alternatifs si disponibles, même si les performances sont pires, il est bon d'avoir un point de référence .) Ce pourrait être le noyau (moins probable cependant dans RHEL, il est assez bien testé.) Ce pourrait être une mauvaise RAM qui gâche le cache de bloc.

Un problème matériel est cependant la cause la plus probable, basée sur le comportement d'erreur apparemment aléatoire.

Mihai Limbăşan
la source
2

Vérifiez que le disque n'est pas plein - en particulier la partition racine. Utilisez df pour voir l'utilisation du disque du système de fichiers:

df -h

Rechercher des partitions proches ou égales à 100% d'utilisation

Peter H
la source