L'autre jour, nous remarquons une terrible odeur de brûlé sortant de la salle des serveurs. En résumé, il s’agissait en fin de compte d’un des modules de batterie qui brûlaient dans l’ASI, mais il a fallu attendre quelques heures avant de pouvoir le résoudre. La raison principale pour laquelle nous avons pu le comprendre est que l'écran de l'onduleur a finalement montré que le module devait être remplacé.
Le problème était là: toute la pièce était remplie d’odeur. Faire un test de reniflement était très difficile parce que l'odeur avait tout infiltré (pour ne pas dire que cela nous avait étourdi). Nous avons presque par erreur arrêté notre serveur de base de données de production, car c'est là que l'odeur était la plus forte. Les données vitales semblaient bien fonctionner (la température du processeur indiquait 60 ° C et la vitesse du ventilateur était satisfaisante), mais nous n'étions pas sûrs. Il se trouve que le module de batterie qui a brûlé avait à peu près la même hauteur que le serveur sur le rack, à seulement 3 pieds de distance. Si cela avait été une véritable urgence, nous aurions lamentablement échoué.
De manière réaliste, les chances que le matériel du serveur soit en train de brûler sont plutôt rares et la plupart du temps, nous nous intéresserons à l'onduleur. Mais avec plusieurs racks avec plusieurs équipements, cela peut rapidement devenir un jeu de devinettes. Comment déterminer rapidement et avec précision quel équipement est en train de brûler? Je me rends compte que cette question dépend fortement des variables d'environnement telles que la taille de la pièce, la ventilation, l'emplacement, etc., mais toute contribution serait appréciée.
Réponses:
Le consensus général semble être que la réponse à votre question se compose de deux parties:
Comment pouvons-nous trouver la source de l'odeur de brûlé drôle?
Vous avez le "Comment" assez bien défini:
Vous pouvez améliorer vos chances de trouver rapidement le problème de plusieurs manières. Une surveillance améliorée est souvent la solution la plus simple. Quelques questions à poser:
Quand devrions-nous résoudre les problèmes plutôt que de toucher le Big Red Switch?
C'est une question plus intéressante.
Appuyer rapidement sur le commutateur rouge peut coûter très cher à votre entreprise: les rejets d'agents propres peuvent représenter des dizaines de milliers de dollars, ainsi que les coûts de panne / reprise après une mise hors tension d'urgence (EPO, "chuter la salle") ) peut être dévastateur.
Vous ne voulez pas laisser tomber un centre de données, car un condensateur d’une source d’alimentation est tombé et a fait sentir la pièce.
Inversement, un incendie dans une salle de serveurs peut coûter à votre entreprise ses données / équipements, et plus important encore, la vie de votre personnel.
Dépanner "cette drôle d’odeur de brûlé" ne doit jamais primer sur la sécurité , il est donc important d’avoir des règles claires sur la résolution des problèmes de "pré-incendie".
Les directives qui suivent sont les limitations personnelles que j’applique en l’absence (ou en plus) de toute autre procédure / règle clairement définie - elles m’ont bien servi et peuvent vous aider, mais elles pourraient tout aussi bien me faire tuer ou congédié demain, appliquez-les donc à vos risques et périls.
Si vous voyez de la fumée ou du feu, laissez tomber la pièce.
Cela devrait aller de soi, mais disons-le quand même: s'il y a un feu actif (ou de la fumée qui indique qu'il y en aura bientôt), vous évacuez la pièce, coupez le courant et allumez le feu système de suppression.
Des exceptions peuvent exister (faites preuve de bon sens), mais c'est presque toujours l'action correcte.
Si vous procédez au dépannage, faites toujours appel à au moins une autre personne
pour deux raisons. Tout d'abord, vous ne voulez pas vous promener dans un centre de données et, tout d'un coup, vous devez faire monter un rack dans la rangée où vous vous dirigez et personne ne sait que vous y êtes. Deuxièmement, l’autre personne vérifie votre état physique en matière de dépannage plutôt que de quitter la salle. Si vous appelez pour appuyer sur le Big Red Switch, vous avez l’avantage d’avoir une seconde personne qui souscrit à la décision (aide à éviter les aspects limitant la carrière d’une telle décision si quelqu'un la questionne plus tard).
Prenez des mesures de sécurité prudentes lors du dépannage Assurez-vous de toujours disposer d'un chemin d'évacuation (une extrémité de ligne ouverte et un chemin dégagé menant à une sortie).
Gardez une personne en poste à la sortie de feu EPO / anti-incendie.
Emportez avec vous un extincteur (halon ou autre agent propre, s'il vous plaît).
Rappelez-vous la règle n ° 1 ci-dessus.
En cas de doute, quittez la pièce . Faites attention à votre respiration: utilisez un respirateur ou un masque à oxygène. Cela pourrait sauver votre santé en cas d'incendie chimique.
Fixez une limite et respectez-la
plus précisément, définissez deux limites:
Les limites que vous avez définies peuvent également être utilisés pour permettre à votre équipe de commencer un arrêt ordonné de la zone touchée, donc quand vous DO tirer le pouvoir que vous n'êtes pas écraser un tas de machines actives, et votre temps de récupération sera beaucoup plus courte, mais rappelez - vous que Si l'arrêt méthodique prend trop de temps, vous devrez peut-être laisser quelques systèmes tomber en panne au nom de la sécurité.
Faites confiance à votre instinct
Si la sécurité vous préoccupe à tout moment, appelez le service de dépannage et quittez la pièce.
Vous pouvez ou non laisser tomber la pièce en fonction de vos instincts, mais il est prudent de vous regrouper à l'extérieur de la pièce en toute sécurité (relative).
S'il n'y a pas de danger imminent, vous pouvez choisir de faire appel au service d'incendie local avant de prendre des mesures radicales, telles que la libération d'EPO ou la libération d'un agent propre. (Ils vous diront peut-être de le faire quand même: leur mandat est de protéger les personnes, puis les biens, mais ce sont évidemment des experts en matière de lutte contre les incendies, vous devriez donc faire ce qu'ils disent!)
la source
Une caméra à imagerie thermique peut faire le travail et vous permettre d’identifier la surchauffe. Un appareil comme celui-ci vous permettrait d'identifier également l'origine d'un incendie ou d'une combustion dans une pièce remplie de fumée.
la source
Vous ne faites aucune de ces choses qui ont été dites. Vous quittez l'environnement dangereux, car tout ce qui est pompé dans toute la pièce est dangereux pour la santé et peut gâcher vos poumons. Si vous ne trouvez aucune odeur de brûlé dans la pièce, appelez le (911 | 112 | 999 | le numéro d'urgence qui correspond à votre juridiction) et laissez le service des incendies (compagnie | département | brigade) régler le problème. êtes sur l'air en bouteille.
Les pièces d'ordinateur contiennent toutes sortes de produits chimiques intéressants, dont le mercure , le cadmium , le plomb et de nombreux plastiques dans des enveloppes. Notez que tous les liens que j'ai établis expliquent comment des expositions de faible niveau peuvent causer des dommages durables, voire la mort rapide. C'est un environnement qui peut être immédiatement dangereux pour la vie et la santé .
... alors vraiment, si quelque chose brûle, ne passez pas des heures à renifler les émanations. Si vous ne pouvez pas l'identifier et que vous agissez immédiatement pour le contenir, sortez.
la source
Si vous avez une surveillance adéquate sur l’onduleur (généralement via SNMP), l’appareil lui-même aurait dû sonner les cloches sur votre système de surveillance. Si ce n'est pas le cas, parlez-en à votre fournisseur. Cela a mal fonctionné ou votre système de surveillance n’est pas configuré correctement.
Si quelque chose d’actif est en train de brûler, il devrait s’en plaindre d’une manière ou d’une autre, ou tout simplement être déconnecté du réseau, ce qui devrait également déclencher une alarme.
Si cela ressemble à un rail d'alimentation qui brûle de l'isolant et que ce n'est pas sur une PDU intelligente, nous revenons à votre question initiale, à savoir "comment puis-je trouver un objet en combustion?" Et je pense que la bonne réponse est "Touchez l'OEB et résolvez-vous. Vos serveurs de production ne sont probablement pas assez importants pour risquer des vies".
la source
C’est l’une de ces situations où
ne s'applique pas, vous devriez appeler un professionnel
Tout le reste est tout simplement stupide.
la source
En tant que technicien en électronique, j'ai déjà travaillé avec des "odeurs de brûlé" qui n'étaient pas des incendies. Ce n'est pas rare.
Je ne fermerais pas un centre de données pour une odeur. La fumée est une autre affaire, quelque chose brûle vraiment (en général, mais un condensateur au tantale, de la taille d'un pois, peut également remplir de fumée une pièce). C'est incroyable de voir combien un composant frit dans une source d'alimentation peut sentir.
Un thermomètre TIC ou IR (un outil utile et beaucoup moins cher qu'un TIC) ne l'indiquerait pas nécessairement car le composant ne génère pas beaucoup de chaleur et se trouve à l'intérieur d'un boîtier. Mais vérifiez que les périphériques ne fonctionnent pas, utilisez vos outils de surveillance. Pour une odeur comme celle-ci, 95% du temps, ce sera une alimentation qui affectera les performances de tout l'appareil.
la source
J'aime les réponses IR ou de thermomètre, mais peut-être que ce qui aiderait aussi serait un véritable "détecteur d'odeurs". Après tout, ce qui a déclenché votre mise en garde était l'odeur. La fumée, la chaleur, les infrarouges, etc. sont des substituts.
Quelque chose comme celui - ci: . Personnellement, je ne les ai jamais utilisées ou même vues dans un centre de données. Mais au moins théoriquement, ce devrait être un outil soigné. Si vous avez de l'argent à dépenser pour ce gadget, c'est.
http://www.sca-shinyei.com/odormeter ou http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
Il vous donne une force odorante ainsi que la classification. Il devrait donc être possible de cibler l'odeur. Le diable est dans les détails bien sûr. Quelle est sa sensibilité, masquant les odeurs de fond parasites, etc.
Un avantage par rapport aux mesures purement thermiques est que souvent, les odeurs se produisent à un point ou un seuil beaucoup plus tôt. Ou si le composant surchauffé est caché par un corps / un câblage dissimulé, etc., il est plus facile de détecter les molécules qui s'échappent qu'un point chaud en visibilité directe.
Une autre situation est une odeur non liée à la chaleur. Nous avons déjà eu une fuite de circuit de refroidissement et les odeurs de liquide de refroidissement étaient également particulières. Je n'entrerai même pas dans le cas maintenant ancien d'un rongeur mort dans les conduits. :)
J'ai été surpris de la sensibilité de ces capteurs. Apparemment, H2S / mercaptans, etc. (responsables habituels) sont détectables à des niveaux inférieurs à ppm.
la source