Évaluation des dégâts matériels suite à un coup de foudre - Dois-je en avoir prévu davantage?

56

L'un des sites de mes clients a reçu un coup de foudre direct la semaine dernière (comme par hasard le vendredi 13! ).

J'étais éloigné du site, mais en travaillant avec quelqu'un sur place, j'ai découvert un type de dommages étrange. Les deux liens Internet étaient en panne, la plupart des serveurs étaient inaccessibles. Une grande partie des dommages sont survenus dans le MDF , mais un IDF connecté à la fibre a également perdu 90% des ports d’un membre de la pile de commutateurs. Il y avait suffisamment de ports de commutation disponibles pour redistribuer le câblage ailleurs et reprogrammer, mais il y avait un temps d'arrêt pendant que nous traquions les appareils affectés.

Il s’agissait d’un nouveau bâtiment / entrepôt et la conception de la salle des serveurs a fait l’objet de beaucoup de planification. La salle des serveurs principale est alimentée par un onduleur en ligne à double conversion APC SmartUPS RT 8000VA , soutenu par un générateur. Tous les équipements connectés étaient correctement alimentés. La réplication des données hors site et les sauvegardes des systèmes étaient en place.

Au total, les dégâts (à ma connaissance) sont les suivants:

  • Echec de la carte de ligne à 48 ports sur un commutateur de châssis Cisco 4507R-E .
  • Échec du commutateur Cisco 2960 dans une pile à 4 membres. (oups ... câble d'empilement lâche)
  • Plusieurs ports floconneux sur un commutateur Cisco 2960.
  • Carte mère HP ProLiant DL360 G7 et alimentation.
  • Equilibreur de liens WAN Elfiq .
  • Un modem fax multitech.
  • Antenne Internet WiMax / Fixed-wireless et injecteur de puissance.
  • Nombreux périphériques connectés PoE (téléphones VoIP, points d'accès Cisco Aironet, caméras de sécurité IP)

La plupart des problèmes étaient liés à la perte d'une lame de commutateur entière dans le Cisco 4507R-E. Cela contenait une partie de la mise en réseau VMware NFS et la liaison montante vers le pare-feu du site. Un hôte VMWare a échoué, mais HA s'est occupé de la VM une fois la connectivité de stockage en réseau restaurée. J'ai été obligé de redémarrer / redémarrer un certain nombre de périphériques pour effacer les états d'alimentation géniaux. Donc, le temps de récupération a été court, mais je suis curieux de savoir quelles leçons devrait être tirée ...

  • Quelles protections supplémentaires devraient être mises en place pour protéger l'équipement à l'avenir?
  • Comment dois-je aborder la garantie et le remplacement? Cisco et HP remplacent des articles sous contrat. L'équilibreuse coûteuse Elfiq WAN Link possède un texte de présentation sur son site Web qui dit en gros "tant pis, utilisez un limiteur de surtension réseau ". (on dirait qu'ils s'attendent à ce type d'échec)
  • Je suis dans l'informatique depuis assez longtemps pour avoir été endommagé par un orage dans le passé, mais avec un impact très limité. par exemple, l’interface réseau d’un PC bon marché ou la destruction de mini-commutateurs.
  • Y a-t-il autre chose que je puisse faire pour détecter le matériel potentiellement squameux, ou dois-je simplement attendre qu'un comportement étrange fasse surface?
  • Est-ce que tout ceci était juste de la malchance ou quelque chose qui devrait vraiment être pris en compte dans la reprise après sinistre?

Avec suffisamment de $$$, il est possible de créer toutes sortes de redondances dans un environnement, mais quel est le juste équilibre entre conception préventive / réfléchie et utilisation efficace des ressources?

ewwhite
la source
3
Quelques bonnes réponses techniques ci-dessous, mais selon mon expérience, rien ne vaut une bonne police d'assurance. Littéralement, une police d'assurance. Bien sûr, cela ne permet pas d'éviter le problème, et cela n'empêche pas les clients de vous crier dessus, mais cela permet de remplacer le matériel défaillant que le fournisseur ne veut pas toucher.
Mark Henderson
@MarkHenderson Insurance arrive ... mais cela fait 6 semaines et quelques petits problèmes se posent maintenant.
ewwhite

Réponses:

23

Il y a quelques emplois, l'un des centres de données de l'endroit où je travaillais était situé à un étage sous une très grande antenne. Cet objet métallique large et mince était la chose la plus haute de la région et était frappé par la foudre tous les 18 mois environ. Le centre de données lui-même a été construit vers 1980, je ne dirais donc pas que c'est le plus moderne, mais ils avaient une longue expérience des dégâts causés par la foudre (les cartes de communication série devaient être remplacées à chaque fois , ce qui est un test si les communications les conseils d'administration sont dans un système qui n'a pas eu de nouvelles pièces fabriquées depuis 10 ans).

Une chose qui a été soulevée par les anciens est que tout ce courant parasite peut trouver un moyen de contourner n'importe quoi, et peut se propager dans un sol commun une fois qu’il se rapproche. La foudre est un cas exceptionnel, où les normes de sécurité habituelles ne suffisent pas à prévenir les arcs et iront aussi loin que possible. Et il y en a beaucoup. Si l’énergie est suffisante, elle peut provenir d’une grille de plafond suspendu (un des câbles de suspension est peut-être suspendu à une boucle avec connexion à une poutre de bâtiment dans le ciment) au sommet d’un rack à 2 poteaux et de là au goodies de réseautage.

Comme les hackers, vous ne pouvez faire que beaucoup de choses. Tous vos blocs d’alimentation comportent des disjoncteurs qui bloquent les tensions parasites, mais votre équipement de réseau à basse tension ne le fait presque jamais et représente un chemin commun pour le routage d’un courant extrêmement énergique.


Détecter un kit potentiellement feuilleté est quelque chose que je sais faire en théorie, mais pas en réalité. Le mieux est probablement de placer le matériel suspect dans une zone et d’élever délibérément la température de la pièce dans la partie supérieure de la plage de fonctionnement et de voir ce qui se passe. Exécutez des tests, chargez-les complètement. Laissez-le là quelques jours. Le stress thermique ajouté aux dommages électriques préexistants peut éliminer certaines bombes à retardement.

Cela a certainement raccourci la durée de vie de certains de vos appareils, mais il est difficile de déterminer lesquels sont difficiles à trouver. Les circuits de conditionnement d'alimentation dans les blocs d'alimentation peuvent comporter des composants compromis et fournir une alimentation sale au serveur, ce que vous ne pouvez détecter que par le biais de périphériques spécialisés conçus pour tester les blocs d'alimentation.


Les coups de foudre ne sont pas quelque chose que j'ai envisagé pour la RD, à part le fait d'avoir un contrôleur de domaine dans une installation avec un paratonnerre géant sur le toit . Généralement, une grève est une de ces choses qui arrivent si rarement qu'elle est mélangée sous «acte de dieu» et déplacée.

Mais ... tu en as un maintenant. Cela montre que votre établissement avait les bonnes conditions au moins une fois. Il est temps d'obtenir une évaluation du degré de propreté de votre installation et de planifier en conséquence. Si vous ne pensez qu'aux impacts de la foudre sur les DR, je pense que cela convient.

sysadmin1138
la source
Je suis allé sur place hier pour évaluer. Désordonné. J'ai réparé le commutateur de châssis et vérifié les dommages de certains des serveurs. Y a-t-il une chance que l'antenne WiMax / Fixed-Wireless sur le toit soit le point d'entrée? Tout sur son passage était affecté:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
ewwhite
1
Cela semble ... plutôt probable.
Mfinni
1
@ewwhite Cela semble très probable. Les dégâts lorsque ce vieux DC a été touché étaient très similaires.
sysadmin1138
J'aimerais ajouter un peu de sagesse au message de sysadmin1138 (désolé, je ne suis pas autorisé à commenter, je ne voulais pas que cela soit une réponse) ... Les broches de terre sur les cordons d'alimentation sont destinées à la sécurité humaine, pas à vos appareils .. Dans les petits bureaux; Je garde les machines importantes sur le sol (caisse en bois, tapis en caoutchouc) et les connecteurs / adaptateurs non mis à la terre UPS -> Wall. Je suis sûr que l'OSHA le déteste mais les ordinateurs l'adorent. Cela aide également lorsque le gird est désexcité et re-énergisé que ces surtensions peuvent tuer n'importe quoi. Je suis allé dans un bâtiment lorsqu'un très grand onduleur / onduleur Libert a explosé et a dû expliquer à ses techniciens comment les pics inductifs (
sirmonkey
8

Je réfléchis à cette question depuis qu'elle a récemment été révisée au début de la première page.

Je stipule librement que, pour des personnes comme sysadmin1138 qui doivent faire face à des installations très attrayantes pour les grands éclairs sur le toit du centre-ville, la planification d'urgence spécifique pour une grande grève est logique. Mais pour la plupart d’entre nous, il s’agit d’une circonstance ponctuelle, et j’ai pensé qu’une réponse plus généralement appropriée pourrait avoir une certaine valeur.

Il est possible d’imaginer toutes sortes de menaces de film ; Les scénarios qui pourraient certainement se produire compromettraient indiscutablement les opérations de votre entreprise s’ils le faisaient, mais il n’ya aucune raison de penser qu’ils ont une probabilité élevée de se produire. Vous connaissez le genre de chose; collision aérienne / éclair / dépôt pétrolier à proximité explose / tout autre scénario de risque plausible mais sans impact de fond.

Chacun de ceux-ci a un plan d'atténuation spécifique qui pourrait être mis en place, mais je suggérerais que - modulo ma stipulation ci-dessus - cela n'a aucun sens commercial de le faire . Comme Schneier essaie de le souligner dans la concurrence susmentionnée, le simple fait d’imaginer que quelque chose d’horrible se produise n’en fait pas une menace pour laquelle une planification spécifique est utile, voire souhaitable. Que fait bon sens des affaires est un usage général, bien documenté, testé plan de continuité des activités.

Vous devez vous demander quels sont les coûts d’une perte totale du site sur plusieurs périodes (par exemple, 24h, 96h, une semaine, un mois) et tenter de quantifier la probabilité de chaque événement. Il doit s'agir d'une analyse honnête des coûts, à laquelle tous les niveaux de l'entreprise ont souscrit. J'ai travaillé sur un site où le chiffre généralement accepté pour les temps d'arrêt était de 5,5 millions de livres sterling / heure (il y a 20 ans, cinq millions de dollars représentaient beaucoup d'argent); le fait que ce chiffre soit généralement accepté a rendu beaucoup de décisions tellement plus faciles, car elles devenaient simplement une question de calcul simple.

Votre budget correspond à la perte projetée multipliée par la probabilité annuelle de cette perte. Maintenant, voyez ce que vous pouvez faire pour atténuer cette menace pour le budget.

Dans certains cas, cela s’applique à un centre de données en mode veille, doté d’un équipement froid, prêt à fonctionner 24h / 24, 7j / 7. Cela peut signifier un petit centre de données en veille, de sorte que l’interaction client puisse continuer avec un nombre très réduit de téléphonistes et un site Web fictif avertissant des perturbations. Cela peut signifier une deuxième connexion Internet redondante sur votre site principal, qui reste froide jusqu'à ce que vous en ayez besoin. Comme Mark Henderson l’a noté plus haut, il peut s’agir d’une assurance (mais d’une assurance qui couvre les pertes commerciales ainsi que les coûts réels du recouvrement); si vous pouvez dépenser votre budget de la Colombie-Britannique sur un seul morceau de papier qui couvrira tous vos coûts prévus en cas de catastrophe, il peut être judicieux d'acheter ce morceau de papier - mais n'oubliez pas de prendre en compte l' échec du souscripteurdans votre plan de risque d'entreprise. Cela peut signifier la mise à niveau des contrats de maintenance de certains équipements de base en des délais extrêmement coûteux en quatre heures. Vous seul pouvez savoir ce qui convient à votre entreprise.

Et une fois que vous avez ce plan, vous devez vraiment le tester (à l'exception peut-être de ceux basés sur l'assurance). J'ai travaillé sur un site où nous avions un site froid complet fonctionnant à petite échelle, prêt à être utilisé à 45 minutes en voiture de notre site principal. Lorsque nous avons eu un problème qui a arrêté le réseau principal, nous avons fini par essayer de le réparer en direct au lieu de nous rendre sur le site froid, puisfixer le noyau et couper en arrière. L'une des raisons de l'échec est que nous ne savions pas vraiment combien de temps il faudrait pour réduire et réduire. Par conséquent, personne ne savait vraiment combien de temps il faudrait laisser les choses se dérouler sans basculement avant de prendre la décision de procéder à la coupe. Il est donc tout à fait compréhensible qu'il y ait une réticence à décider de couper. Les têtes ont roulé après notre retour en ligne, 14 heures plus tard; pas à cause de la panne en soi , mais parce que beaucoup d'argent avait été dépensé dans une installation pour atténuer une panne d'un jour et plus qui n'avait pas été utilisée pendant une telle panne.

Enfin, notez que les éléments externalisés de votre plan d’entreprise ne sont pas garantis. Votre haute direction est peut-être assise là à penser " si nous mettons les serveurs dans le cloud, ils seront toujours là, et nous pourrons renvoyer les administrateurs système ". Pas si. Les nuages ​​peuvent échouer comme n'importe quoi; si vous avez sous-traité des composants critiques à un fournisseur, vous n'avez plus qu'à vous permettre d'estimer les risques d'échec de ces composants. Les accords de niveau de service sont très bien, mais ils sont dénués de sens s'ils ne sont pas assortis de pénalités substantielles pour non-exécution. Pourquoi votre prestataire de services dépenserait-il de l'argent supplémentaire pour rester disponible s'il pouvait simplement le dépenser et vous rembourser vos frais de service pour la période indisponibilité? Pour être fiables, vos contrats de niveau de service doivent comporter des pénalités correspondant approximativement aux coûts de la panne pour votre entreprise. Oui, cela augmentera considérablement les coûts de la sous-traitance; et oui, il faut s'y attendre.

Chapelier Fou
la source
2
Je devrais ajouter ... ce site a été frappé par la foudre trois fois depuis la publication initiale. La raison a été attribuée à une mise à la terre électrique insuffisante / inexistante dans plusieurs zones de l'installation. Nous avons poursuivi les entrepreneurs et l’assurance a pris en charge la majeure partie des remplacements.
ewwhite
2
Désolé, ewwhite, ma stipulation d'ouverture aurait dû s'appliquer plus clairement à vous aussi; dans les sites où tout risque est au-dessus de l'arrière-plan, il est logique pour moi de considérer au moins des mesures d'atténuation spécifiquement dirigées contre ce risque . Ma réponse s'adressait davantage à tous les autres, qui liraient peut-être votre question et commenceraient à se dire " bon, je n'ai pas non plus de plan éclair; peut-être que je devrais le faire ".
MadHatter
6

Cela dépend toujours de combien vous voulez dépenser. Je ne connais pas suffisamment le sujet pour en parler longuement, mais je suis dans un grand centre de données pharmaceutique qui a subi un coup de foudre et qui a balayé quelque chose qui était supposé être un parafoudre à multiples redondances (conçu correctement , mais a été mal mis en œuvre alors quelque chose est passé.)

Quelle a été la pointe maximale que votre UPS aurait pu empêcher? Il devrait avoir une cote. Apparemment, la frappe était assez directe pour dépasser ce résultat, ou quelque chose a coulé autour de l'alimentation de l'onduleur, comme un mauvais sol. Alors, peut - être vous revoir votre conception de puissance, déterminer la probabilité une autre grève, comparer le coût des temps d' arrêt probabilité X par rapport à l' assainissement, et peut - être un électricien donner l'établissement d' une bonne enquête pour vous assurer que tout est mis à la terre correctement - et quelques lectures rapides spectacles la mise à la terre pour la sécurité / le code n'est pas aussi intensive que la mise à la terre pour prévenir les dommages causés par la foudre.

Mfinni
la source
L'onduleur semble aller bien. Il y avait des problèmes dans plusieurs parties du bâtiment, mais les principales spécifications techniques de l'onduleur sont les suivantes : "Filtrage du bruit
multipolaire en permanence
Ça a l'air bien. Ensuite, il est probablement entré par d’autres moyens, si votre alimentation principale est solide.
Mfinni