Comment réparer très haut w_await sur le bureau Linux?

1

Mon bureau Linux (Debian sid) a commencé à ralentir au cours des dernières semaines. Quand j'ai enquêté, j'ai trouvé que:

  1. Il n'y a aucune pénurie de bélier - le système n'utilise régulièrement que la moitié de sa 4G, il en reste plus de 1G libre, même en comptant les caches et les tampons;
  2. La lenteur est associée à l'accès aux fichiers; Par exemple, ouvrir un dossier dans KMail induit un mini-gel;
  3. Quand cela ralentit, le processeur passe beaucoup de temps dans iowait.

Quand j'ai creusé plus loin, j'ai trouvé des choses comme celle-ci:

$ iostat -x -d /dev/sda
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.05     7.90    3.14    2.41    23.27    40.94    23.11    12.02 2163.14   57.59 4906.16  31.58  17.55

Si je comprends bien, la valeur de w_await (près de 5 000) est incroyablement élevée, la valeur de wait (moyenne de r_await et w_await?) Est donc très élevée et sinon, les choses sont normales.

Lorsque je regarde iotop à des moments de lenteur excessive, je vois habituellement tous les zéros, avec des clignotements de 99,9% pour kjournald, flush et parfois les processus que je prévois (par exemple, KMail).

Le système est utilisé depuis plusieurs années comme "distribution roulante", tous les systèmes de fichiers sont au format ext3.

Oh, et bien sûr: Bien que le swap soit défini (sur ce disque, qui est le seul à être constamment monté dans le système), il n’est presque jamais utilisé (comme je l’ai dit, la 4G n’est nulle part sur le point d’être épuisée).

Les seules erreurs que j'ai constatées dans dmesg sont les pleurs de processus qui ont été bloqués (à peine perçus - dans les premières minutes après le redémarrage) pendant plus de 120 secondes. Principalement syslog. Il ne semble y avoir aucune autre indication de défaillance du disque (smartctl indique que tout a toujours été correct, sauf depuis longtemps où le flux d'air du disque chauffait).

J'utilise Linux 3.2; J'ai essayé de revenir à la version 2.6.38, en vain.

Est-ce le disque? Les systèmes de fichiers sont-ils devenus fous? Que puis-je vérifier de plus?

Shai Berger
la source
Vous passez beaucoup de temps à faire autre chose qu'expliquer le problème, qui ne comprend qu'une phrase expliquant qu'il "a commencé à devenir morose au cours des dernières semaines". Est-ce lent seulement avec l'accès au disque? Est-ce qu'il est devenu progressivement plus lent? Avez-vous exclu des choses comme une panne de ventilateur du processeur ou une surchauffe du processeur? Avez-vous exclu une pénurie de RAM? (Quel est le résultat de free?) Il semble que vous ayez rapidement conclu que le disque est responsable, sans justification mentionnée dans votre question.
David Schwartz
Is it the disk?C'est une question que vous pouvez répondre. Que dit une fsck? Quel est l' smartétat du disque? Ce disque dur fait-il du bruit?
Bobby

Réponses:

1

Dans votre cas, vous dites qu'un remplacement de disque dur a résolu le problème. C'est bon. Cependant, selon mon expérience, bien que récemment je ne l'ai vu que sur des ordinateurs portables, il s'agit le plus souvent d'un problème matériel de type carte mère, et dans le cas des ordinateurs portables, je n'ai jamais pu le réparer. Changer de disque n'a eu aucun effet, et comme je n'ai vu que des symptômes similaires sur les ordinateurs portables, je ne peux que vous suggérer d'essayer de changer de disque. Si cela ne fonctionne pas, c'est probablement la carte mère.

A propos, j’ai réinstallé plusieurs fois des systèmes d’exploitation et pensais avoir résolu les problèmes (que se soit sous Windows ou dans toutes les versions de Linux que j’avais utilisées), mais ils semblaient revenir après quelques périodes d’utilisation intensive, ce qui me laissait penser qu’il était un composant thermique pour le hardware / chipset-glitch.

(Tout cela en supposant que vous n'échangiez pas simplement les noyaux et qu'il y ait donc un problème dans les pilotes du noyau, mais comme vous avez essayé une variété de niveaux de noyau, cela correspond assez clairement à mes problèmes récents.)

Warren P
la source
0

Pour ce que cela vaut, pour quiconque trouve cela, je veux résumer.

Conclusion: c’était, semble-t-il, c’est bien le disque. Je l'ai remplacé et les choses semblent redevenir normales.

Sur le chemin, j'ai trouvé deux contrôles intéressants (et bon marché):

1) Pour m'assurer que le problème ne se trouvait pas dans la configuration de mon propre système d'exploitation, j'ai essayé de générer une activité de disque à partir d'un CD live. Comme suspecté, I / O était horrible.

2) Pour m'assurer que le problème ne concernait pas uniquement un système de fichiers, j'ai utilisé de l'espace libre sur le disque et tenté de créer un nouveau système de fichiers. Cela a été horriblement lent et, après cela, le système d'exploitation ne pouvait même pas lire l'exécutable "stop" du disque.

Le troisième test était, en effet, le plus coûteux suggéré par Warren: remplacer le disque. Le nouveau disque semble être ok.

Shai Berger
la source