Dépannage d'un réseau «lent»

21

Nous nous sommes tous plaints que le "réseau" soit "lent" à un moment donné: peut être localisé dans une pièce (commutateur) ou un ordinateur, peut être simplement Internet (DNS? Problème de navigateur?), Peut être juste une application (requêtes SQL de longue durée? analyse AV en cours?).

Lorsque vous avez exclu des problèmes évidents de système et / ou d'application, comment procédez-vous pour tester un réseau en cas de lenteur ou de comportement erratique? Travaillez-vous votre chemin vers le haut des couches OSI? Si oui, comment procéder pour vérifier chaque couche? Que faites-vous pour vous assurer que le réseau physique fonctionne correctement dans un environnement inconnu? Qu'en est-il du trop grand nombre d'émissions ou d'une tempête de radiodiffusion? Couche 3 et plus? traceroute? D'autres conseils, méthodes, idées? Fonctionnalités et outils indispensables (mise en miroir des ports, SNMP, surveillance, etc.) pour toutes les tailles de réseaux?

WuckaChucka
la source
1
peut-être, mais je pensais qu'un wiki aurait un peu plus de longévité et donnerait à plus de gens une chance de contribuer.
WuckaChucka
Tout d'abord, je dois être convaincu que son "Internet"! Le plus souvent, ce n'est pas "l'internet". La plupart des lusers que j'ai rencontrés disent que les internets sont en panne même lorsqu'ils essaient d'accéder à un serveur de fichiers local ..
tony roth
2
C'est parce que tous vos utilisateurs diffusent actuellement des flux vidéo de la Coupe du Monde!
BillN

Réponses:

9

tcpdump et wirehark sont vos amis.

Je trouve que regarder des paquets sur le fil d'un réseau "lent" contre un "bon" réseau est généralement ce qui identifie un problème.

Il existe de nombreux types de «lent».

Vous pouvez suivre la latence des sites locaux et Internet à l'aide d'un outil comme SmokePing. (SmokePing peut être configuré pour suivre la latence ICMP ainsi que la latence de service des services TCP)

Vos commutateurs doivent suivre les paquets de diffusion par rapport aux paquets unicast. Représentez graphiquement ce ratio.

J'aime également surveiller les traceroutes (vérifier les noms de domaine des sauts de FAI entre moi-même les sites «importants»).

J'espère que ces commentaires vous aideront.

Joel K
la source
1
Lorsque vous regardez des paquets, quelles sont les choses que vous recherchez ou les "signes révélateurs" d'un problème?
WuckaChucka
3
Recherchez un grand nombre de retransmissions TCP et / ou de réinitialisations TCP. recherchez également un pourcentage élevé du trafic de diffusion.
joeqwerty
excellent. Je voudrais presque mettre cela dans une réponse distincte.
WuckaChucka
si vous pouvez utiliser netmon 3+ de MS, allez à microsoft research et téléchargez l'analyseur tcp research.microsoft.com/en-us/downloads/… c'est assez cool pour déboguer les problèmes de réseau. il existe également une version 32 bits si nécessaire.
tony roth
+1 pour SmokePing. Cela, avec des choses comme IPSLA dans les routeurs et commutateurs Cisco, peut vous aider à comprendre s'il y a un réseau lent ou une application lente.
Christopher Cashell
6

Il est difficile de donner des réponses spécifiques, car 90% de ce travail est une expérience qui vous apprend où chercher quel type de problème, et les 90% restants savent où chercher sur Google pour obtenir des conseils par où commencer.

J'essaie généralement les trucs en papier comme faire en sorte que le client démontre le problème (principalement pour exclure les problèmes de doigts et tous les problèmes que le client peut avoir décrivant son problème), puis j'essaie de reproduire le problème sur un autre ordinateur. Cela vous donne souvent un aperçu de l'endroit où chercher.

N'oubliez pas le problème correctif d'un redémarrage, en particulier pour les systèmes Windows, même aujourd'hui. Auparavant, c'était comme ça que je demandais aux gens "Avez-vous redémarré? Eh bien essayez-le et faites-moi savoir si le problème persiste" - cela a résolu un très grand pourcentage des problèmes qui m'ont été posées.

Il y a souvent aussi des problèmes de résolution DNS et de connectivité de base (ACL sur les routeurs, lacunes dans le réseau, pings / traceroutes / mtrs vers des sites distants, etc.).

Pour les services sur lesquels vous avez un contrôle direct, l'exécution de nagios ou quelque chose pour vous assurer que le service est réellement en cours d'exécution peut souvent vous inciter à résoudre les problèmes avant que les clients ne vous en parlent. Vous voulez probablement également exécuter la collecte de statistiques, soit directement via munin ou quelque chose, ou via SNMP vers quelque chose comme Cacti.

J'essaie généralement de faire fonctionner Cacti sur au moins tous mes commutateurs principaux et pare-feu; dans la mesure du possible, je lance Cacti contre tout ce que je peux. Dans ces cas, je recherche généralement des choses comme le nombre d'erreurs de port ou le trafic excessif. Les graphiques de pare-feu de certains appareils peuvent vous montrer l'utilisation du processeur et les sessions simultanées; vous apprendrez à quels seuils votre pare-feu commence à avoir des problèmes.

Votre pare-feu peut être en mesure de se connecter à un périphérique syslog; si c'est le cas, enregistrez tout ce que vous pouvez et regardez-les pour obtenir des conseils. Ce sera plus facile si vous exécutez quelque chose comme syslog-ng ou rsyslog ou splunk qui vous permet de diviser quelque peu vos journaux plutôt que de traiter avec un seul fichier monolithique.

J'essaie également d'exécuter nfsen contre au moins l'intérieur de mon pare-feu et la liaison montante vers le fournisseur Internet lorsque cela est possible. Cela vous permet de remonter le temps pour regarder les sessions et voir qui faisait quoi; cela peut parfois attraper des comportements intéressants.

David Mackintosh
la source
5

Voici quelques outils utiles pour dépanner la latence et d'autres problèmes de réseau:

  • le mode OSI l - commencez par le bas et montez
  • ping - vérifiez votre RTT (c.-à-d. latence)
  • Ping HTTP - utile si votre pare-feu bloque les ICMP normaux
  • ping -r 9 - utile pour identifier les situations de routage asymétrique
  • traceroute - comment mes paquets y parviennent-ils et comment réagissent les routeurs en cours de route? Sachez que les routeurs traitent souvent ces paquets avec une faible priorité, donc les performances réelles peuvent être meilleures.
  • Wireshark - prend une certaine expertise, mais vous ne pouvez pas obtenir beaucoup plus bas niveau
  • SpeedGuide.net TCP / IP Analyzer - vérifiez les paramètres TCP de votre PC
  • SG TCP Optimizer - (Windows uniquement) suggère des moyens d'optimiser vos paramètres NIC
  • IP Chicken - Quelle est votre adresse IP source (non NAT)?
  • http://downforeveryoneorjustme.com/ - c'est peut-être vous ...
  • Test de vitesse de bande passante - vérifiez vos vitesses de téléchargement / téléchargement
  • Outils réseau - exécutez des outils / tests en dehors de votre réseau
  • vérifiez vos ports réseau pour les erreurs / CRC / etc. -
  • vérifier votre réseau pour la surutilisation (moniteurs de bande passante) et les tempêtes de diffusion
  • vérifier les inondations unicast - utilisez wirehark et surveillez le trafic unicast qui n'est pas destiné à votre poste de travail.
  • vérifiez que votre pont racine de spanning tree est placé correctement
Peter
la source
Si le ping -r expire, que dit-il? Par exemple, un ping 8.8.8.8fonctionne, mais un ne fonctionne ping -r 9 8.8.8.8pas
Michiel van Vaardegem
4

Si vous utilisez un réseau sans fil, l'un des ralentissements les plus fréquents est l'interférence de canal. Un tas de SSID dans une zone peut vraiment ralentir le trafic réseau. (Pensez: la démo de l'iPhone 4 à la WWDC '10).

Le dépannage de ce problème est assez facile avec un logiciel qui peut vous montrer les modèles de trafic sans fil dans la région. Il y en a un bon gratuit et basé sur le Web à: http://meraki.com/tools/stumbler . (divulgation: je travaille pour Meraki)

Pour réduire les interférences, il est préférable d'être sur les canaux 1, 6 ou 11. L'utilisation d'un équipement 802.11n avec la fréquence 5 GHz pourrait également aider.

joeybaker
la source
1

Je commence toujours par surveiller les trucs de la couche 2 à l'aide de Cacti . Cela vous donnera une bonne quantité de données que vous pouvez utiliser pour rechercher des modèles et vous pouvez comparer vos graphiques Cacti lorsque tout fonctionne bien vs lorsque les utilisateurs voient la lenteur.

Il ne trouvera probablement pas le problème exact, mais il vous donnera un bon point de départ pour aider à affiner le problème.

TonyB
la source
Quelque chose en particulier que vous recherchez dans les graphiques Cacti?
WuckaChucka
1

Je commence par le routeur le plus à l'extérieur et je descends, et je mesure les performances de la manière la plus primitive: utilisez un site de test de bande passante ou un site FTP externe connu qui vous donnera votre vitesse de téléchargement / téléchargement, et continuez jusqu'à ce que vous trouver le niveau où réside le problème.

Une fois que vous savez où est le problème, déployez vos outils et moniteurs sophistiqués. Mais ne perdez pas de temps à faire ce genre de choses sur chaque couche. Cela prendra une éternité.

Satanicpuppy
la source
Mais qu'en est-il des performances des applications internes?
WuckaChucka
@wuckachucka: Habituellement, s'il y a un problème avec le code, il apparaît partout dans les journaux, donc le dépannage n'est pas si mal. Vous savez également par où commencer (l'application). Le plus gros problème avec le dépannage du réseau est TROUVER le problème. Si vous avez des décalages de vitesse de port ou de mauvaises MTU ou d'autres problèmes physiques, ceux-ci sont un bâtard complet pour le dépannage via les journaux, et l'approche de l'homme des cavernes a beaucoup d'avantages.
Satanicpuppy
1

Vous devez également connaître vos serveurs et votre environnement de bureau / client, plutôt que de simplement supposer que l'utilisateur est correct lorsqu'il dit "le réseau est lent". Vous devez dépanner méthodiquement chaque problème - comme d'autres l'ont dit, vous devez d'abord être en mesure de visualiser et de reproduire idéalement l'erreur, puis de travailler à partir de là d'une manière qui convient au scénario.

Cependant, une bonne gestion et surveillance du réseau et des serveurs peut vous faire gagner beaucoup de temps, car vous n'essayez pas de proposer des instruments à la volée tout en essayant peut-être également d'atténuer ou de corriger les symptômes, et de traiter les utilisateurs qui se plaignent /les clients.

Les réponses pour tcpdump et Wireshark ne sont pas fausses, elles peuvent être des pièces vitales de votre boîte à outils. Mais à moins que vous ne soyez absolument certain qu'il s'agit bien du réseau, ils ne devraient pas être la première chose que vous atteignez.

mfinni
la source
0

Le réseau lent est un phénomène courant. La vitesse lente du réseau peut être causée par un certain nombre de choses. dépanner un réseau lent est l'un des travaux les plus courants et les plus gênants dans la gestion quotidienne du réseau.

Selon l'analyse, les principales raisons de la lenteur du réseau sont:

Loopback
Broadcast/Multicast storm
Virus attack
Server slow response
Too many clients
Application slow response
Error client mask

Comment pouvons-nous découvrir rapidement la cause du ralentissement du réseau? C'est une bonne idée de capturer et d'analyser des paquets avec un analyseur de réseau (Ax3soft Unicorn, Wireshark et ainsi de suite).

Vous lisez également l'article "Find Reasons for Slow Network", en cliquant sur l'URL ( http://www.ids-sax2.com//Unicorn/Tutorials/Find-Reasons-for-Slow-Network-with-Ax3soft-Unicorn .htm ) pour le visiter.

Andy.H
la source