Quelque chose brûle dans la salle des serveurs. Comment puis-je identifier rapidement ce que c'est?

454

L'autre jour, nous remarquons une terrible odeur de brûlé sortant de la salle des serveurs. En résumé, il s’agissait en fin de compte d’un des modules de batterie qui brûlaient dans l’ASI, mais il a fallu attendre quelques heures avant de pouvoir le résoudre. La raison principale pour laquelle nous avons pu le comprendre est que l'écran de l'onduleur a finalement montré que le module devait être remplacé.

Le problème était là: toute la pièce était remplie d’odeur. Faire un test de reniflement était très difficile parce que l'odeur avait tout infiltré (pour ne pas dire que cela nous avait étourdi). Nous avons presque par erreur arrêté notre serveur de base de données de production, car c'est là que l'odeur était la plus forte. Les données vitales semblaient bien fonctionner (la température du processeur indiquait 60 ° C et la vitesse du ventilateur était satisfaisante), mais nous n'étions pas sûrs. Il se trouve que le module de batterie qui a brûlé avait à peu près la même hauteur que le serveur sur le rack, à seulement 3 pieds de distance. Si cela avait été une véritable urgence, nous aurions lamentablement échoué.

De manière réaliste, les chances que le matériel du serveur soit en train de brûler sont plutôt rares et la plupart du temps, nous nous intéresserons à l'onduleur. Mais avec plusieurs racks avec plusieurs équipements, cela peut rapidement devenir un jeu de devinettes. Comment déterminer rapidement et avec précision quel équipement est en train de brûler? Je me rends compte que cette question dépend fortement des variables d'environnement telles que la taille de la pièce, la ventilation, l'emplacement, etc., mais toute contribution serait appréciée.

Chad Harrison
la source
34
@DeerHunter Eh bien, merci, c'était la fin de la journée et il y avait très peu de monde dans le bâtiment. Merci pour vos critiques constructives et je ne manquerai pas de faire savoir à ma superviseure quelles vies elle a risquées en décidant de maintenir le système en place.
Chad Harrison
12
@hydroparadise - il faut que quelqu'un ait le courage de dire " STOP, on ne fait pas ça bien". Si votre superviseur ne comprend pas les règles de sécurité, il n'y a pas grand-chose à faire à part croître un peu la colonne vertébrale et ne pas céder à l'envie de prendre des raccourcis.
Deer Hunter
112
@DeerHunter: Quelle serait la réponse appropriée lorsque vous sentez quelque chose qui brûle? Il n'y a pas de fumée visible, juste une odeur de brûlé. Arrêtez-vous tout le centre de données, laissez-le sortir pendant quelques heures, puis allumez les serveurs un à un jusqu'au retour de l'odeur? Un petit centre de données à 25 racks pourrait avoir 1 000 serveurs à contrôler, ce qui représente beaucoup de temps d'arrêt pour une "odeur" - le PO ne signalait pas de fumée ou d'incendie visible.
Johnny
24
@Johnny - Citation de l'OP: "toute la pièce était remplie d'une odeur. Faire un test de reniflement était très difficile car l'odeur avait infiltré tout (sans parler du fait qu'elle nous a étourdis)" Répondant à votre question - oui, vous devez ventiler la pièce, et dépanner systématiquement . Tout le reste est irresponsable.
Deer Hunter
14
Alors, ceux qui critiquent le traitement de l'odeur par le PO suggèrent-ils qu'il n'y a pas de différence d'urgence entre une odeur et un feu / fumée? Si vous sentez quelque chose de brûlé dans votre maison mais ne voyez pas de fumée et n'entendez pas d'alarme, vous précipitez-vous ainsi que votre famille hors de la maison et appelez le 911?
trpt4him

Réponses:

383

Le consensus général semble être que la réponse à votre question se compose de deux parties:

Comment pouvons-nous trouver la source de l'odeur de brûlé drôle?

Vous avez le "Comment" assez bien défini:

  • Le "test de reniflement"
  • Rechercher de la fumée / de la brume visible
  • Parcourez la pièce avec une caméra thermique (IR) pour trouver les points chauds
  • Vérifiez la surveillance et les panneaux de l'appareil pour les alertes

Vous pouvez améliorer vos chances de trouver rapidement le problème de plusieurs manières. Une surveillance améliorée est souvent la solution la plus simple. Quelques questions à poser:

  • Recevez-vous des alertes de température et d'autres alertes de santé de votre équipement?
  • Est-ce que vos systèmes UPS signalent des erreurs à votre système de surveillance?
  • Recevez-vous des alarmes de consommation de courant de votre équipement de distribution électrique?
  • Les détecteurs de fumée de la pièce sont-ils en rapport avec le système de surveillance? (et peuvent-ils? )

Quand devrions-nous résoudre les problèmes plutôt que de toucher le Big Red Switch?

C'est une question plus intéressante.
Appuyer rapidement sur le commutateur rouge peut coûter très cher à votre entreprise: les rejets d'agents propres peuvent représenter des dizaines de milliers de dollars, ainsi que les coûts de panne / reprise après une mise hors tension d'urgence (EPO, "chuter la salle") ) peut être dévastateur.
Vous ne voulez pas laisser tomber un centre de données, car un condensateur d’une source d’alimentation est tombé et a fait sentir la pièce.

Inversement, un incendie dans une salle de serveurs peut coûter à votre entreprise ses données / équipements, et plus important encore, la vie de votre personnel.
Dépanner "cette drôle d’odeur de brûlé" ne doit jamais primer sur la sécurité , il est donc important d’avoir des règles claires sur la résolution des problèmes de "pré-incendie".

Les directives qui suivent sont les limitations personnelles que j’applique en l’absence (ou en plus) de toute autre procédure / règle clairement définie - elles m’ont bien servi et peuvent vous aider, mais elles pourraient tout aussi bien me faire tuer ou congédié demain, appliquez-les donc à vos risques et périls.

  1. Si vous voyez de la fumée ou du feu, laissez tomber la pièce.
    Cela devrait aller de soi, mais disons-le quand même: s'il y a un feu actif (ou de la fumée qui indique qu'il y en aura bientôt), vous évacuez la pièce, coupez le courant et allumez le feu système de suppression.
    Des exceptions peuvent exister (faites preuve de bon sens), mais c'est presque toujours l'action correcte.

  2. Si vous procédez au dépannage, faites toujours appel à au moins une autre personne
    pour deux raisons. Tout d'abord, vous ne voulez pas vous promener dans un centre de données et, tout d'un coup, vous devez faire monter un rack dans la rangée où vous vous dirigez et personne ne sait que vous y êtes. Deuxièmement, l’autre personne vérifie votre état physique en matière de dépannage plutôt que de quitter la salle. Si vous appelez pour appuyer sur le Big Red Switch, vous avez l’avantage d’avoir une seconde personne qui souscrit à la décision (aide à éviter les aspects limitant la carrière d’une telle décision si quelqu'un la questionne plus tard).


  3. Prenez des mesures de sécurité prudentes lors du dépannage Assurez-vous de toujours disposer d'un chemin d'évacuation (une extrémité de ligne ouverte et un chemin dégagé menant à une sortie).
    Gardez une personne en poste à la sortie de feu EPO / anti-incendie.
    Emportez avec vous un extincteur (halon ou autre agent propre, s'il vous plaît).
    Rappelez-vous la règle n ° 1 ci-dessus.
    En cas de doute, quittez la pièce . Faites attention à votre respiration: utilisez un respirateur ou un masque à oxygène. Cela pourrait sauver votre santé en cas d'incendie chimique.

  4. Fixez une limite et respectez-la
    plus précisément, définissez deux limites:

    • Condition ("Combien de temps vais-je laisser cela aller?"), Et
    • Temps ("Combien de temps vais-je continuer à essayer de trouver le problème avant qu'il ne soit trop risqué?").

    Les limites que vous avez définies peuvent également être utilisés pour permettre à votre équipe de commencer un arrêt ordonné de la zone touchée, donc quand vous DO tirer le pouvoir que vous n'êtes pas écraser un tas de machines actives, et votre temps de récupération sera beaucoup plus courte, mais rappelez - vous que Si l'arrêt méthodique prend trop de temps, vous devrez peut-être laisser quelques systèmes tomber en panne au nom de la sécurité.

  5. Faites confiance à votre instinct
    Si la sécurité vous préoccupe à tout moment, appelez le service de dépannage et quittez la pièce.
    Vous pouvez ou non laisser tomber la pièce en fonction de vos instincts, mais il est prudent de vous regrouper à l'extérieur de la pièce en toute sécurité (relative).

S'il n'y a pas de danger imminent, vous pouvez choisir de faire appel au service d'incendie local avant de prendre des mesures radicales, telles que la libération d'EPO ou la libération d'un agent propre. (Ils vous diront peut-être de le faire quand même: leur mandat est de protéger les personnes, puis les biens, mais ce sont évidemment des experts en matière de lutte contre les incendies, vous devriez donc faire ce qu'ils disent!)

Nous avons abordé cette question dans les commentaires, mais vous pouvez également résumer votre question dans une réponse: @DeerHunter, @Chris, @Sirex et bien d'autres ont contribué à la discussion.

temps
la source
30
Université, je suis allé installer un nouveau centre de données. Ils ont mis en place un système hautement sophistiqué EPO / Fire Suppression. Le matériel qu’il protégeait se chiffrait à des millions de dollars et était également utilisé pour des millions de dollars de recherche pour la partie médicale de l’école. Évidemment, si cela était nécessaire, le bouton rouge serait touché, mais, cela dit, si le bouton rouge était touché, le simple fait de le réinitialiser avoisinait les 200 000 dollars américains. CONTRIBUABLE Dollars vous pouvez sûr que l' enfer pari que si le commutateur a été touché quand il n'a pas besoin de le gars qui a frappé , il ne serait plus d'emploi.
Ryan
28
+1 pour le système de copain. Je pense que le fait que certains pays en développement utilisent l’OEB pour supprimer également la suppression des incendies est un peu taré. Il existe de nombreuses situations dans lesquelles vous souhaiteriez effectuer une EPO sans pour autant renverser de l'halotron sur le type à électrocuter. Une EPO est un accord sérieux, mais ce n'est pas un "tout détruire dans le système de type DC", ou du moins ne devrait pas l'être. Les gars du CC devraient espérer comprendre le gros bouton rouge et le système de suppression des incendies assez bien pour peser l’effet de l’appui sur le bouton. Un EPO peut en fait arrêter un incendie et sauver le contrôleur de domaine, par exemple.
chris
13
Une remarque importante que je n'ai pas vue mentionnée est que la plupart du temps, lorsque quelque chose ne se produit pas, une odeur de brûlé est émise, tout ce qui brûle s'éteint avant que l'odeur ne soit détectée et sans rien brûler à l'extérieur de l'équipement défaillant. Parfois, une pièce d'équipement continue à couver tant qu'elle est alimentée, mais si on voit de la fumée, il devrait être possible d'identifier l'équipement, de couper l'alimentation juste pour elle et de voir si la fumée disparaît rapidement ou s'aggrave.
Supercat
1
@ryan: Si appuyer sur le gros bouton rouge coûte autant d'argent au contribuable, la personne responsable a, espérons-le, élaboré un plan pour résoudre les incidents mineurs avec le service d'incendie local, qui ne comporte pas de mise en danger des employés.
Christoph
3
@ryan Cela me rappelle un reportage télévisé sur le CERN que j'ai vu récemment: l'équipe de la caméra et la journaliste ont été prises au dépourvu du système. Un instant, l'un des caméramans a presque enfoncé le bouton rouge d'urgence avec son sac à dos - donner presque des crises cardiaques au membre du personnel qui pense aux coûts de redémarrage ...
Hagen von Eitzen
183

Une caméra à imagerie thermique peut faire le travail et vous permettre d’identifier la surchauffe. Un appareil comme celui-ci vous permettrait d'identifier également l'origine d'un incendie ou d'une combustion dans une pièce remplie de fumée.

ddalcero
la source
30
Les caméras thermiques sont de moins en moins chères de nos jours, et si vous utilisez une grande salle de serveurs, elles sont un outil qui en vaut la peine.
rackandboneman
16
Un TIC n'est pas si cher et est très utile dans un centre de données ou une grande salle de serveur. Non seulement en cas de problèmes tels que des câbles ou des équipements surchauffés, mais également en tant que détection préventive ou précoce d'un problème, optimisation de la réfrigération, débit d'air, etc.
ddalcero
39
Un pistolet à température laser, comme celui-ci , est une alternative bon marché
MichaelHouse
4
Les électriciens @mfinni ont aussi souvent des caméras thermiques. (Une vérification par imagerie thermique de nos panneaux de distribution d'énergie chaque année, ou après tout travail de câblage important, était standard lorsque je travaillais pour une société d'hébergement).
voretaq7
3
Une caméra thermique a de très grandes limitations: 1. Le champ de vision peut empêcher l’utilisation 2. Votre environnement peut être très dense. [Les grands incendies seront détectés mais pas les plus petits] 3. Le calcul de la température moyenne sera nécessaire pour déterminer un seuil
Moksy
138

Vous ne faites aucune de ces choses qui ont été dites. Vous quittez l'environnement dangereux, car tout ce qui est pompé dans toute la pièce est dangereux pour la santé et peut gâcher vos poumons. Si vous ne trouvez aucune odeur de brûlé dans la pièce, appelez le (911 | 112 | 999 | le numéro d'urgence qui correspond à votre juridiction) et laissez le service des incendies (compagnie | département | brigade) régler le problème. êtes sur l'air en bouteille.

Les pièces d'ordinateur contiennent toutes sortes de produits chimiques intéressants, dont le mercure , le cadmium , le plomb et de nombreux plastiques dans des enveloppes. Notez que tous les liens que j'ai établis expliquent comment des expositions de faible niveau peuvent causer des dommages durables, voire la mort rapide. C'est un environnement qui peut être immédiatement dangereux pour la vie et la santé .

... alors vraiment, si quelque chose brûle, ne passez pas des heures à renifler les émanations. Si vous ne pouvez pas l'identifier et que vous agissez immédiatement pour le contenir, sortez.

Jeff Ferland
la source
18
Il faut ajouter que si cela se produisait dans un "vrai" centre de données avec des détecteurs de fumée intégrés à la climatisation et à un système d'extinction installé, les alarmes incendie se seraient déclenchées et la pièce serait automatiquement scellée et inondée d'argon ou de CO2. on ne pouvait même pas penser à courir et renifler du matériel.
le-wabbit
8
@ syneticon-dj Cela dépend du type de détecteurs installés. Les détecteurs d’ionisation ont peut-être déclenché la suppression des incendies, mais j’ai travaillé (et héberge actuellement du matériel dans) dans des endroits équipés de détecteurs de fumée optiques - ceux-ci ont besoin de fumée visible (ou au moins d’un bon brouillard) avant de se déclencher.
voretaq7
3
Je souhaite que je pourrais upvoter cela plus. au risque de susciter la controverse, trouver un pompier professionnel est le seul moyen d'avancer.
user619714
19
Oui, en tant qu'ancien pompier, je n'y resterais pas sans mon équipement. Même en cas d’incendie, nous sommes entraînés à rester emballés à cause des gaz toxiques. Si je voudrais appeler les pros, vous devriez aussi!
Jeff Ferland
1
@ Michael, les conceptions que j'ai vues ne reposaient pas sur des détecteurs de fumée au plafond, mais avaient des détecteurs photoélectriques dans le flux d'air de retour. La seule fois où je l'ai vu déclencher, c'est lors d'une routine de test où le système argonite a été détaché et une source de fumée a été placée dans l'un des placards. Cela a fonctionné comme je m'attendais à ce qu'il fonctionne. Heureusement, je n'ai jamais eu à faire face à de véritables incendies.
le-wabbit
76

Si vous avez une surveillance adéquate sur l’onduleur (généralement via SNMP), l’appareil lui-même aurait dû sonner les cloches sur votre système de surveillance. Si ce n'est pas le cas, parlez-en à votre fournisseur. Cela a mal fonctionné ou votre système de surveillance n’est pas configuré correctement.

Si quelque chose d’actif est en train de brûler, il devrait s’en plaindre d’une manière ou d’une autre, ou tout simplement être déconnecté du réseau, ce qui devrait également déclencher une alarme.

Si cela ressemble à un rail d'alimentation qui brûle de l'isolant et que ce n'est pas sur une PDU intelligente, nous revenons à votre question initiale, à savoir "comment puis-je trouver un objet en combustion?" Et je pense que la bonne réponse est "Touchez l'OEB et résolvez-vous. Vos serveurs de production ne sont probablement pas assez importants pour risquer des vies".

Mfinni
la source
13
Que signifie EPO?
Midhat
39
Mise hors tension d'urgence ... le gros bouton rouge qui coupe l'alimentation de la pièce. Principalement pour quand c'est en feu.
Grant
11
Un +1 emphatique, aurait voté +1 000. Appuyez sur le bouton, évacuez, attendez, arrangez les choses plus tard. Faire des affaires comme d'habitude avec le feu et la fumée présents (et essayer de tout réparer) est l'une des pires erreurs qu'un ingénieur puisse commettre.
Deer Hunter
36
@chris Je ne suis pas tout à fait d'accord avec le point de vue suivant: "EPO, Leave, Wait": l'activation de la libération de l'OEB et / ou de l'agent propre pour une salle remplie d'équipement de production peut très souvent être ce que nous aimons appeler un mouvement de limitation de carrière . S'il n'y a pas de feu visible visible ou de traînée de fumée provenant de certains équipements effectuant une enquête initiale, c'est généralement la bonne chose. Bien sûr, vous devez absolument être prêt à quitter la pièce en appuyant sur les boutons rouges appropriés à tout moment de votre enquête.
voretaq7
13
Il est probable que même un système de surveillance parfait ne l'aurait pas détecté jusqu'au moment où le panneau de l'onduleur a déclaré "Remplacer le module" - cela étant dit, vous voulez certainement que votre système de surveillance vous signale de telles choses. La prochaine fois qu'un module échouera à 19h30 le vendredi quand il n'y a personne, et l'alerte de surveillance vous incitera à revenir et à résoudre le problème avant qu'il ne devienne une urgence à part entière. Si vous pouvez relier la surveillance à votre système de protection de votre usine, vos capteurs de fumée et / ou de chaleur peuvent même vous avertir de la combustion d’isolant par des rails de commande, etc.
voretaq7
43

C’est l’une de ces situations où

XKCD Die Hard sysadmin

ne s'applique pas, vous devriez appeler un professionnel

Pompier en tenue de protection

Tout le reste est tout simplement stupide.

Iain
la source
c'est clairement la meilleure réponse. :)
Citizen
@ Navin Non, ce n'est pas ce que font les pompiers.
user619714
40

En tant que technicien en électronique, j'ai déjà travaillé avec des "odeurs de brûlé" qui n'étaient pas des incendies. Ce n'est pas rare.

Je ne fermerais pas un centre de données pour une odeur. La fumée est une autre affaire, quelque chose brûle vraiment (en général, mais un condensateur au tantale, de la taille d'un pois, peut également remplir de fumée une pièce). C'est incroyable de voir combien un composant frit dans une source d'alimentation peut sentir.

Un thermomètre TIC ou IR (un outil utile et beaucoup moins cher qu'un TIC) ne l'indiquerait pas nécessairement car le composant ne génère pas beaucoup de chaleur et se trouve à l'intérieur d'un boîtier. Mais vérifiez que les périphériques ne fonctionnent pas, utilisez vos outils de surveillance. Pour une odeur comme celle-ci, 95% du temps, ce sera une alimentation qui affectera les performances de tout l'appareil.

Malcolm
la source
3
+1, les blocs d'alimentation soufflés sont courants. Dans la plupart des centres de données avec des débits d'air élevés, la fumée est rapidement évacuée et il est difficile de localiser la source de l'odeur. Cependant, dans une petite pièce, l'odeur peut être très mauvaise et se propager rapidement dans toute la pièce.
Stefan Lasiewski
19

J'aime les réponses IR ou de thermomètre, mais peut-être que ce qui aiderait aussi serait un véritable "détecteur d'odeurs". Après tout, ce qui a déclenché votre mise en garde était l'odeur. La fumée, la chaleur, les infrarouges, etc. sont des substituts.

Quelque chose comme celui - ci: de Shinyei . Personnellement, je ne les ai jamais utilisées ou même vues dans un centre de données. Mais au moins théoriquement, ce devrait être un outil soigné. Si vous avez de l'argent à dépenser pour ce gadget, c'est.

http://www.sca-shinyei.com/odormeter ou http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Il vous donne une force odorante ainsi que la classification. Il devrait donc être possible de cibler l'odeur. Le diable est dans les détails bien sûr. Quelle est sa sensibilité, masquant les odeurs de fond parasites, etc.

Un avantage par rapport aux mesures purement thermiques est que souvent, les odeurs se produisent à un point ou un seuil beaucoup plus tôt. Ou si le composant surchauffé est caché par un corps / un câblage dissimulé, etc., il est plus facile de détecter les molécules qui s'échappent qu'un point chaud en visibilité directe.

Une autre situation est une odeur non liée à la chaleur. Nous avons déjà eu une fuite de circuit de refroidissement et les odeurs de liquide de refroidissement étaient également particulières. Je n'entrerai même pas dans le cas maintenant ancien d'un rongeur mort dans les conduits. :)

J'ai été surpris de la sensibilité de ces capteurs. Apparemment, H2S / mercaptans, etc. (responsables habituels) sont détectables à des niveaux inférieurs à ppm.

entrez la description de l'image ici

curieux_cat
la source