Malheurs longue distance Fibre Channel

52

J'ai besoin d'une nouvelle paire d'yeux.

Nous utilisons une ligne de fibre optique de 15 km à travers laquelle un canal fibrichannel et 10GbE est multiplexé (CWDM à optique passive). Pour le FC, nous avons des lasers longue distance pouvant aller jusqu'à 40 km ( Skylane SFCxx0404F0D ). Le multiplexeur est limité par les SFP qui peuvent faire max. Fibrechannel 4Gb. Le commutateur FC est une série Brocade 5000. Les longueurs d'onde respectives sont 1550,1570,1590 et 1610nm pour FC et 1530nm pour 10GbE.

Le problème est que les tissus 4GbFC ne sont presque jamais propres. Parfois, ils sont pendant un certain temps, même avec beaucoup de trafic sur eux. Ensuite, ils peuvent soudainement commencer à produire des erreurs (CRC RX, codage RX, disparité RX, ...) même avec un trafic marginal sur eux. Je joins quelques graphiques d'erreur et de trafic. Les erreurs sont actuellement de l'ordre de 50 à 100 erreurs par 5 minutes avec un trafic de 1 Gb / s.


Optique

Voici la puissance de sortie d’un port résumée (collectée à l’aide sfpshowde différents commutateurs)

Unités SITE-A = uW (microwatt) SITE-B
*********************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      RX 95.2 TX 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok)
      RX 54.3 TX 1468.4      

Ce que je trouve curieux à ce stade, c’est l’asymétrie des niveaux de puissance. Tandis que SW2 transmet avec 1422uW ce que SW4 reçoit avec 104uW, SW2 ne reçoit que le signal SW4 avec une puissance initiale similaire uniquement avec 54uW.

Vice versa pour SW1-3.

Quoi qu'il en soit, les SFP ont une sensibilité RX allant jusqu'à -18 dBm (environ 20 µW), donc, dans tous les cas, ça devrait aller. Mais rien ne l'est.

Le fabricant a diagnostiqué un dysfonctionnement de certains SFP (ceux à 1550 nm illustrés ci-dessus avec «ko»). Les 1610nm sont apparemment ok, ils ont été testés en utilisant un générateur de trafic. La ligne louée a également été testée plus d'une fois. Tout est dans les tolérances. J'attends les remplaçants, mais pour une raison quelconque, je ne crois pas que cela va améliorer les choses, car les bons apparemment ne produisent pas d'erreur ZERO non plus.

Auparavant, il y avait un équipement actif impliqué (une sorte de ré-amplificateur 4GFC) avant de mettre le signal sur la ligne. Aucune idée pourquoi. Cet équipement a été éliminé à cause des problèmes, de sorte que nous n'avons maintenant que:

  • le laser longue distance dans l'interrupteur,
  • (nouveau) 10 m de câble monomode LC-SC vers le multiplexeur (pour chaque tissu),
  • la ligne louée,
  • la même chose mais inversé de l'autre côté du lien.


Commutateurs FC

Voici une configuration de port du brocart portcfgshow(c'est comme ça des deux côtés, évidemment)

Numéro de zone: 0
Niveau de vitesse: 4G
Remplir mot (sur actif) 0 (inactif)
Remplir mot (actuel) 0 (inactif)
AL_PA Offset 13: OFF
Port de coffre activé
LS longue distance
VC Link Init OFF
Distance souhaitée 32 km
Tampons réservés 70
Verrouillé L_Port OFF
Verrouillé G_Port OFF
Désactivé E_Port OFF
E_Port verrouillé OFF
Mode ISL R_RDY OFF
RSCN Supprimé OFF
Désactiver persistant OFF
Activer LOS TOV sur OFF
Capacité NPIV activée
QOS E_Port OFF
Désactivation automatique du port: OFF
Limite de taux OFF
Port EX OFF
Port miroir OFF
Récupération de crédit ON
F_Port Buffers OFF
Délai d'erreur: 0 (R_A_TOV)
NPIV PP Limite: 126
Mode CSCTL: OFF

Forcer les liens vers 2GbFC ne produit pas d'erreur, mais nous avons acheté 4GbFC et nous voulons 4GbFC.

graphiques d'erreur et de trafic

Je ne sais plus où regarder. Des idées quoi essayer ensuite ou comment procéder?

Si nous ne pouvons pas faire fonctionner 4GbFC de manière fiable, je me demande ce que les personnes travaillant avec 8 ou 16 personnes font ... Je ne suppose pas que "quelques erreurs ici et là" soient acceptables.

Oh et BTW, nous sommes en contact avec tous les fabricants (commutateur FC, MUX, SFP, ...). Sauf que les SFP doivent être modifiés (certains ont été modifiés auparavant), personne n’a la moindre idée. Brocade SAN Health dit que le tissu est bon. MUX, eh bien, c'est passif, ce n'est qu'un prisme, la nature à son meilleur.

Des coups dans le noir?


ANNEXE: Réponses à vos questions

@ Chopper3: Il s'agit de la deuxième génération de brocart présentant le problème. Avant nous avions 5000, nous avons maintenant 5100. Au début, alors que nous avions encore le MUX actif, nous avons loué un laser longue distance pour l'insérer directement dans l'interrupteur afin de faire des tests pendant une journée. Ce jour-là, il était propre. Mais comme je l'ai dit, parfois c'est propre comme ça. Et parfois ce n'est pas. Des commutateurs alternatifs impliqueraient de reconstruire le réseau SAN entier avec ceux uniquement à tester. Les SFP alternatifs, eh bien, ils sont difficiles à trouver comme ça.

@ Longneck: La ligne est louée. C'est une fibre noire (monomode 9 µm) donc il n'y a personne d'autre dessus. Bien sûr, il y a des épissures. Je ne peux pas aller regarder mais je dois avoir confiance qu'ils ont été faits correctement. Comme je l'ai dit, la ligne a été vérifiée et revérifiée (à l'aide d'un réflectomètre optique dans le domaine temporel). De toute évidence, vous ne disposez pas de tout cet équipement, car il est beaucoup trop cher.

@ mdpc: Quel serait le "mauvais" type de câble selon vous? Jusqu'au commutateur, tout est monomode, oui. Les connecteurs sont les bons aussi. Oui, je sais qu'il y a les fibres vertes où la fibre est coupée à un certain angle, etc. Mais nous avons les bonnes pour tout ce que je sais.


Rapport de progrès n ° 1

Nous avons eu deux tissus (= 2x2 commutateurs) avec Brocade 5100 avec FabricOS 6.4.1 et deux tissus (un autre commutateur 2x4) sur FabricOS 7.0.2.

Sur les ISL longue distance (un dans chaque structure), il est apparu qu'avec FOS 6.4.1, le réglage sur longue distance émet des avertissements sur le réglage VC Init et par conséquent sur le mot de remplissage. Mais ce ne sont que des avertissements. FOS 7.0.2 nécessite que vous apportiez des modifications à VCI et au mot de remplissage pour les liens longue distance.

Le réglage de FOS 6.4.1 sur le paramètre LS (distance statique de longue distance) avec un paramètre VCI et un mot de remplissage incorrect a rendu l'ensemble de la structure inopérante (bloquée dans une boucle SCN, utilisez fabriclog -spour voir, vous ne la voyez nulle part ailleurs, aucune erreur de port compteurs ou quoi que ce soit en augmentation).

Actuellement, je donne un battement au tissu avec l'IMHO plus correct et il semble bien fonctionner, tandis que l'autre, sans trop de trafic, a encore des erreurs ici et là.

progrès1

En bref:

  • Nous avons éliminé la partie active du MUX (le FC Retimer).
  • Nous intégrons les SFP longue distance dans l'équipement final.
  • Juste pour être sûr, nous avons acheté de nouveaux câbles monomodes pour connecter l'équipement final à la partie passive restante du MUX.
  • Nous essayons maintenant plusieurs configurations longue distance.

C'est presque de la magie noire. Tout ce qui se passe est essentiellement empirique, personne ne semble avoir la moindre idée des raisons exactes pour lesquelles faire quelque chose. ("Nous avons essayé cela, et cela n'a pas fonctionné, puis nous l'avons essayé et cela a fonctionné, nous avons donc collé à cela." Mais personne ne semble vraiment savoir pourquoi.)

Je vous tiens au courant.


Rapport d'avancement n ° 2

Les nouveaux lasers de l'un des tissus sont sous garantie. C'est ultra propre même sur 4GbFC.

Ils émettent avec environ 2mW (3dBm) alors que les autres ne font que 1,5mW (1,5dBm) bien que cela devrait vraiment suffire.

L'autre tissu (où les lasers sont apparemment corrects) produit encore rarement un ou deux CRC.

Utilisation sfpshowdu SFP produisant les erreurs d’impression RX réelles

Statut / Ctrl: 0x82
Indicateurs d'alarme [0,1] = 0x5, 0x40
Avertissements [0,1] = 0x5, 0x40

Maintenant, je vais devoir savoir ce que cela signifie. Je ne sais pas si c'était là avant.

Eh bien, je vais d'abord me vider la tête d'une semaine de vacances. 8-)

Marki
la source
8
Tout d’abord, bonne question, à quoi sert exactement ce site, bravo. Deuxièmement, avez-vous accès à des commutateurs / SFP alternatifs - idéalement, une autre marque / un modèle que vous pouvez permuter pour tester?
Chopper3
4
Excellente mise à jour, continuez votre bon travail, j'aimerais avoir quelques suggestions ou conseils, mais vous êtes sur la bonne voie, c'est bien de trouver un nouvel utilisateur sur SF qui connaît son
contenu
1
Existe-t-il une cohérence dans le temps ou la durée des erreurs? Est-ce qu'ils se produisent toujours à l'heure N? Est-ce qu'ils durent toujours X minutes? Pouvez-vous les corréler avec la météo, les événements sportifs à proximité ou tout autre phénomène? Les problèmes intermittents sont les bogues les plus difficiles à éliminer, et je commence généralement à les attaquer en représentant graphiquement les heures et la durée pendant lesquelles ils se produisent sur un tableau blanc. Espérons que des patters émergent qui pourraient être corrélés à d' autres phénomènes .
dotancohen
2
Les suivez-vous sur un tableau blanc, visible par tout le monde ? Je ne vais pas appuyer sur, mais je le recommande fortement. Comme vous l'avez dit, vous avez besoin d'une nouvelle paire d'yeux et peut-être qu'un membre de votre organisation verra le schéma se dégager des périodes / durées, et pas nécessairement des symptômes.
dotancohen
1
Salut Marki. Je ne suis pas tout à fait au courant de ce dont vous parlez, mais d'après votre dernière mise à jour, il semble que le problème ait été résolu par le remplacement des SFP? Si c'est le cas, c'est probablement une bonne idée d'afficher cela comme réponse et de poser une nouvelle question si vous avez d'autres problèmes.
Mark Henderson

Réponses:

4

Ok, je suppose que je dois poster une réponse. En un mot c'est: insistez .

Le problème n'est pas résolu à 100% à mon goût, car nous avons toujours une structure avec une (une) erreur CRC de façon sporadique. L'autre est propre. Mais je peux vivre avec ça.

Dans tous les cas, nous ne continuerons pas à utiliser les unités CWDM pendant très longtemps, mais passerons plutôt à un multiplexeur DWDM passif l’année prochaine, car notre infrastructure changera beaucoup. Apparemment, les lasers DWDM sont moins chers que les lasers CWDM. Oh, on verra et j'aurai peut-être beaucoup de problèmes à vous demander ensuite :-)


Mise à jour Nope à ce qui précède, nous avons acheté CWDM à nouveau, et c'est vraiment moins cher. AFAICS pour certaines applications cependant, vous devez utiliser DWDM car il n’existe aucun laser CWDM. Enfin, nous avons essayé de nous rapprocher le plus possible du fabricant et le tout représentait environ 1/5 du prix par rapport à l'achat chez un distributeur ou même un intégrateur.


Je peux donc conclure que si vous avez acheté une solution qui ne fonctionne pas comme prévu: insistez. Sur le plan technique, nous avons fait deux choses

  • supprime la partie active du MUX (je ne peux pas dire que je le regrette, mais je ne suis pas sûr que ce soit finalement une autre source d'erreur ou non)
  • faire vérifier minutieusement les SFP

(Et bien sûr, tous les diagnostics standard, changez une chose à la fois, voyez ce qui se passe, etc., inutile de vous le dire. Nous avons donc vérifié chaque ligne et chaque câble, etc. aussi, malheureusement, à nos frais.)

Dans ce cas, il a fallu beaucoup de temps pour insister, mais nous sommes finalement arrivés au niveau où le fabricant lui-même a épargné quelques personnes et quelques équipements pour effectuer les contrôles qui ont aidé. Et bien sûr, l'intégrateur a payé cela, car notre matériel est en maintenance. Il s’agissait donc d’un défi tant commercial que technique.

PS Oh, et les drapeaux que j'ai mentionnés dans ma dernière mise à jour n'indiquaient rien de mauvais, mais je ne me souviens pas de ce qu'ils signifiaient exactement. Lorsque je trouverai la déclaration, je mettrai à jour la réponse par souci d'exhaustivité.


Au final, les drapeaux signifiaient quelque chose de mauvais après tout. Apparemment, il n’est toutefois pas certain de quel côté du lien se trouve la cause des erreurs. Donc, cette paire doit être changée aussi.

Oh et BTW, les émetteurs-récepteurs DWDM 8GbFC ne sont que meilleur marché par rapport au CWDM 8G ;-) La solution la moins chère est d'aller au 4GbFC sur CWDM et d'utiliser ensuite la jonction ISL (si vous avez la licence)

Marki
la source
Je n'ai pas vu cela quand on l'a demandé, malheureusement. Je ne peux pas vous dire avec certitude que cela aiderait, mais si vous utilisez des mots de remplissage inactifs, vous envoyez beaucoup de lumière. Cela signifie que chaque image inutilisée consomme beaucoup d'énergie et génère beaucoup de chaleur sur le SFP, je pense. Changer le mot de passe en un autre mode (j'utilise le mode 3, mais j'ai un commutateur et un SFP différents) peut vous permettre d'augmenter le débit avec moins d'erreurs.
Basil
@Basil Je savais qu'utiliser le mot de remplissage correct posait un problème pour la synchronisation des mots à 8GFC, mais j'y ai pensé de cette façon ...
Marki
Il est recommandé de l'utiliser à tout moment. Autant que je sache, il s'agit de déterminer le nombre d'interférences causées par une trame en veille qui crée son SFP.
Basil