Comment trouver la source d'une latence accrue?

14

J'ai une configuration de surveillance sur plusieurs appareils dans notre bureau. Le temps de réponse ping aux petits commutateurs d'accès est généralement de 1 à 4 ms ... À 3 heures du matin ce matin, cela a monté en flèche à 300 ms en moyenne.

Par où commencer dans une situation comme celle-ci? Que puis-je observer dans le commutateur pour trouver la source de latence?

REMARQUE: Ce n'est pas lié à la charge .. toute l'utilisation de la bande passante des liens est normale et non affectée, la plupart des liens sont très sous-utilisés. De plus, la surveillance est locale aux périphériques signalant la latence, il n'y a donc pas de facteur WAN ici.

AL
la source
3
En supposant qu'il s'agit d'un commutateur Cisco IOS ... Veuillez poster show proc cpu historypour le commutateur avec les temps de ping élevés. Si ce processeur est constamment élevé ou show proc cpu sort
Mike Pennington
La latence est-elle uniquement vers le plan de contrôle du commutateur ou obtenez-vous la même latence lorsque vous cinglez quelque chose derrière le commutateur?
ytti
@MikePennington - imgur.com/a/gfX9q#0 - c'est très cool! On dirait qu'il monte assez haut de façon constante, bien qu'en moyenne il soit bas ..
AL
@Ytti - ne voulait pas publier ceci sur une ligne séparée .. de toute façon - Alors j'ai creusé plus profondément. cp <-> la réponse cp est en fait faible de la distribution à l'accès, ou du moins au moment où j'ai testé. Du port de niveau d'accès aux périphériques sur les commutateurs de la couche d'accès, nous constatons une latence extrême.
AL
@ user1353, merci ... cet imgur que vous avez publié n'est pas toujours suffisamment élevé pour provoquer une augmentation constante des temps de ping du CPU sur ce commutateur
Mike Pennington

Réponses:

6

Premièrement, la latence n'est pas directement liée à la bande passante. Il existe de nombreuses raisons pour lesquelles un périphérique retarderait un paquet autre qu'une liaison encombrée.

Avez-vous tenté un traceroute? Cela vous montrera la latence entre les sauts, si vous recherchez une limite L3 en tant que suspect.

Vous pouvez également vérifier pour voir si l'un des périphériques dans le chemin a une utilisation importante de CPU / RAM.

Mierdin
la source
Je suis d'accord avec Mierdin et recommande également MTR pour exécuter en continu un traceroute dans ce genre de situation. Lien Wikipedia: en.m.wikipedia.org/wiki/MTR_(software)
Brett Lykins
@Mierdin - Merci pour vos commentaires, donc il n'y a pas de facteur L3 ici, traceroute affiche une réponse initialement élevée d'environ 500 ms, puis 260 ms, puis 76 ms arrivant sur l'appareil - ce sont pour chaque essai sur le même saut unique, pas pour plusieurs le houblon. Voir mon commentaire à MikePennington pour les informations relatives au processeur.
AL
3

si cela est uniquement basé sur le réseau local, vous pouvez commencer par essayer de découvrir la cause du problème:

  • Commande show process cpu history : si l'utilisation du processeur est très élevée, vous devez voir quel processus est à l'origine de cela et peut-être frapper google avec le processus incriminé.

  • show debug command: une cause courante que j'ai trouvée est que les gens laissent les commandes de débogage s'exécuter sur le commutateur. Un favori commun était la comptabilité IP laissée sur les appareils qui étaient déjà surutilisés. Utilisez "undebug all" pour vous débarrasser des débogages.

  • Redémarrez-le : probablement pas pendant la journée, mais utilisez la commande "reload in" pour le chronométrer la nuit ou le week-end. Vous seriez surpris du nombre de problèmes qu'un redémarrage rapide peut résoudre.

  • fermer les ports de jonction - Si c'est un commutateur L3, un autre problème commun que j'ai vu est le trafic trop important utilisant cet appareil pour le routage entre les VLAN. Si possible, fermez temporairement certains des ports de jonction pour voir si cela réduit la latence.

Il est bon de savoir que vos pings sont de faible priorité, en ce qui concerne la latence et également lorsqu'ils sont traités par le CPU. Cela pourrait également être une bonne idée de revérifier vos paramètres de QoS et de vous assurer qu'il n'y a pas d'erreurs stupides à l'origine de cela, autant que cela soit peu probable.

Artanix
la source
Excellente rétroaction, j'avais déjà vérifié le débogage de l'émission, et un redémarrage n'est pas possible pour le moment.
AL
2

J'utilise des cactus pour surveiller la bande passante et openNMS pour surveiller la latence. Si vous surveillez tous les appareils liés à ce commutateur, vous pouvez voir un corollaire entre l'utilisation et la latence. (Je sais que vous avez dit que ce n'était pas un problème de bande passante, mais vous ne l'avez jamais fait maintenant) J'ai vu des commutateurs bas de gamme s'affaisser sous une utilisation intensive, ce qui provoque beaucoup de latence. Avez-vous des périphériques "stupides" alimentant ce commutateur qui peuvent être la source de l'affaissement même si ce commutateur ne fait pas passer beaucoup de trafic. De plus, avec les cactus, vous pouvez peut-être interroger l'utilisation du processeur et vous pouvez voir un pic au moment de la latence.

Comme mentionné ci-dessus, MTR ou neotrace sont également utiles pour garder un œil sur la situation et vous pouvez voir où commence la latence, ce qui peut ne pas être ce commutateur lui-même.

Blake
la source
0

Si cela ne se produit pas sur le LAN, vous pouvez limiter le débit du "port wan", cela forcera un meilleur TDM. Essayez quelque chose autour de 80% de votre débit maximal et voyez si cela aide. Vous devrez peut-être tweek en fonction de la quantité de terminaux.

user41897
la source
Si je comprends bien, OP a clairement indiqué dans la note que ce n'est pas lié à la charge.