Éléments clés à rechercher dans un centre de données

34

J'essaie de créer une simple liste de contrôle pour déterminer la qualité d'un centre de données ... Où et que dois-je rechercher et comment puis-je déterminer ce que disent les propriétaires (par exemple, "notre UPS maintient le centre de données en veille pendant 100 jours sans pouvoir ") est vrai ou pas? Quels sont les signes typiques ou bons ou mauvais centres de données?

AX1
la source

Réponses:

43

Voici une liste de questions que je me suis posées la dernière fois que je suis allée faire du shopping dans un centre de données:

  • Expliquez ce qu'il faudrait aux sprinklers pour éteindre notre équipement.
  • Qu'est-ce que les mains distantes seront prêtes à faire? Par exemple, installer des disques durs, faire pivoter des bandes…
  • Vos mains distantes sont-elles disponibles 24h / 24, 7j / 7, 365 jours, le temps moyen d'attente pour se rendre dans la cage après avoir déposé un ticket (comment les tickets sont-ils entrés?)?
  • Êtes-vous sur plusieurs grilles?
  • Avez-vous un système de refroidissement au sol?
  • Combien de centres de données exploitez-vous en plus de celui-ci?
  • Combien de temps le centre de données peut-il fonctionner sur une alimentation de secours?
  • Pouvons-nous recevoir du matériel directement dans le centre de données?
  • Y a-t-il un quai de livraison et un parking gratuit, fermé et disponible?
  • Si un fournisseur vient dans le centre de données, devons-nous les accompagner?
  • Quelle température ambiante et quelle humidité est maintenue?
  • Combien de choix de FAI existe-t-il?
  • L'un de vos clients a-t-il déjà perdu de l'énergie pendant une période de temps dans l'historique du centre de données?
  • Depuis combien de temps ce centre de données est-il en activité?
  • Quels contrôles d'accès sont en place pour le sol et l'équipement?

Si vous en visitez plusieurs et que vous posez ces questions entre le prix, vos impressions sur la visite et leurs réponses, la réponse sera probablement claire. Assurez-vous de toujours leur rendre visite et en visiter une bonne quantité.

Kyle Brandt
la source
2
Bien joué. +1 à vous.
gWaldo
3
Je voudrais également poser des questions sur les contrôles d’accès à la fois au sol et à votre équipement.
Scott Pack
Grande liste !! J'ajouterais: "Possédez-vous le bâtiment?" De plus, s'ils ont des arroseurs, éloignez-vous!
JakeRobinson
@JakeRobinson Les sprinkleurs sont requis par le code de prévention des incendies , même dans les centres de données, dans de nombreux endroits. Quand vous voyez des sprinkleurs, demandez s'ils sont des sprinkleurs à tuyau sec .
sysadmin1138
3
@JakeRobinson Le nouveau centre de distribution dans lequel j'ai emménagé en 2003 avait à la fois un FM200 et des sprinklers. Les commissaires des incendies ont été très fermes sur le fait qu’il devait y avoir des sprinkleurs. Si le FM200 peut éteindre le feu, tant mieux. Mais si ce n'est pas le cas (l'onduleur brise le barrage d'air du FM200 afin que l'O2 puisse entrer après une décharge) beaucoup d'eau sauvera le bâtiment. Le bon système de conduite sèche signifie que si une tête de sprinkleur est éjectée, le courant continu n’est pas inondé.
sysadmin1138
6

Kyle a très bien couvert le sujet, mais voici quelques points:

La sécurité physique est énorme. Il faudrait presque un acte du Congrès (Parlement, insérer ici une institution bureaucratique lente) pour entrer.

Il devrait avoir la suppression des incendies au halon, pas des sprinklers; Les serveurs ne doivent pas être humides. (Les réglementations locales d'extinction des incendies peuvent avoir priorité…)

Découvrez quels sont leurs fournisseurs de serveurs préférés. À moins que ce ne soit pour une raison très spécifique (telle que l'exécution d'un centre de données de type Google), il devrait s'agir de serveurs de marque. (Dell, HP, IBM, Sun, Apple, etc.) S'ils disent "boîte blanche" ou une marque que vous ne reconnaissez pas, exécutez. Notez que certains fournisseurs de serveurs de niveau inférieur réputés sont réputés (System76, par exemple), mais "sur mesure" signifie qu'ils assemblent les éléments eux-mêmes. Idéal pour votre maison, mais mauvais pour votre centre de données. (Cela ne comprend pas l'achat d'un HP Proliant DL580 et l'installation d'éléments tels que les kits d'option de mémoire ou les cages de lecteurs.)

Quelles sont les options de propriété disponibles? Acheter à travers eux? Achetez directement et livrez directement à cet endroit? Location? Les VM?

gWaldo
la source
4
Accord sur la suppression des incendies, bien que pour "Halon", lire "halon / FM200 / Argonite / Inergen / autre gaz d'extinction ici"
MadHatter soutient Monica
11
Les sprinkleurs sont en fait requis par le code d'incendie dans de nombreux endroits. Je l'ai découvert en 2003 lors d'une construction de DC à laquelle j'ai assisté. Il est uniquement censé s'allumer si le FM200 ne désactive pas la source de chaleur. Il devrait s'agir d'un système de sprinkleurs à tuyau sec assurant la sauvegarde du gaz inerte.
sysadmin1138
2

Excellent comme toujours Kyle, quelques choses que j'ai apprises de mon expérience:

  • Demandez s'il y a des générateurs pour sauvegarder les onduleurs. Si oui, les générateurs ont-ils été testés, à quelle fréquence?

  • Quels contrôles et serrures physiques ont-ils mis en place pour empêcher les électriciens de tuer le courant?

  • Quelle couverture de responsabilité / assurance ont-ils?

  • Comment font-ils face aux situations où ils ne respectent pas leur contrat de niveau de service?

  • Combien de fois n'ont-ils pas rencontré un SLA?

  • Combien de puissance fournissent-ils à chaque rack / cage / etc.? (Serez-vous limité en puissance et avez-vous besoin d'un autre rack / cage uniquement pour plus de puissance?)

  • Demander des références, dans votre secteur serait bien.

Des histoires drôles qui ne l'étaient pas à l'époque:

  1. Il y avait un incendie à Vancouver dans un compartiment électrique souterrain, à 4 pâtés de maisons de mon DC. Le feu a coupé le courant pour un rayon de 10 pâtés de maisons. Les UPS ont gardé les lumières allumées jusqu'à la mise en ligne du groupe. Gen-set est resté en ligne environ une heure avant de surchauffer. Les UPS ont pu garder les lumières allumées pendant encore 30 minutes après que le groupe électrogène a arrêté la sécurité. Le groupe appartenait au bâtiment, le IIRC le CD a pu les blâmer et se laver les mains.

  2. Un électricien a coupé l’alimentation de deux rangées de supports au niveau du contrôleur de domaine parce que le panneau est tombé et a ouvert tous les disjoncteurs. J'ai aussi entendu parler d'un électricien d'un autre contrôleur de domaine qui se mettait au travail sur un onduleur, sans le mettre en mode dérivation et en supprimant l'ensemble du contrôleur de domaine.

Clint
la source
Est-il conseillé d'avoir un système d'alimentation sans coupure en rack pour ces cas ou cela n'a-t-il aucune importance, car la connexion est généralement interrompue avec tout?
AX1
Cela aurait été bien ... Notre centre de distribution a dit que nous n'avions pas le droit d'avoir un UPS dans nos rayonnages, ils nous ont donné une raison, mais je ne me souviens pas de quoi il s'agissait.
Clint
Peut-être de la chaleur? Je n'ai pas beaucoup d'expérience avec l'onduleur rack, mais l'onduleur grand public chauffe toujours.
AX1
4
@ AX1: UPS dans un désordre en chaîne les uns avec les autres. Ils s'attendent à certaines caractéristiques dans le courant, et d'autres UPS peuvent les filtrer. Le réseau va probablement tomber en panne une fois que le contrôleur de domaine perd son alimentation. Ainsi, même si vos serveurs sont actifs, le réseau ne le sera pas.
Quinnr
Cela aurait pu être le code de prévention des incendies. Si l’OEB est touché, les pompiers s’attendent à ce qu’il n’y ait pas de courant électrique.
Sean Reifschneider
1
  • Je dirais qu'un tiers du centre de données est constitué d'éléments techniques (avez-vous {VESDA, contrats de ravitaillement en carburant, groupes de froid couverts par des systèmes d'alimentation sans coupure, réseaux multiples, entrées de fibres différentes).

  • Un autre tiers concerne la façon dont ils gèrent la situation lorsque les choses ne vont pas bien. Est-ce qu'ils avalent leur fierté, examinent l'échec et trouvent ce qu'il faut faire pour que cela ne se reproduise plus? Ou continuent-ils simplement à faire ce qui n'a pas fonctionné auparavant?

  • Et l'autre tiers est le personnel. Sont-ils intelligents, faciles à travailler et ne se retournent pas tous les mois?

Mais plus important encore: ont-ils l'espace dont vous avez besoin? Dans un endroit où nous sommes presque allés, au bout de deux ans, nous utilisions plus d’espace qu’il n’y en avait.

Sean Reifschneider
la source
1

Je travaille dans un petit centre de données dans la Silicon Valley. Je suis l'administrateur système du côté du serveur géré de l'entreprise.

Mauvais signes:

  • Absence de surveillance et d'alerte redondantes pour l'alimentation, la température et l'humidité
  • Absence de surveillance des périphériques réseau, des serveurs, des serveurs et d'autres équipements
  • Clutter et ne pas utiliser d'attaches de câble ou autre système de gestion des câbles pour garder les racks propres et organisés

Bons signes: - Générateur diesel sur site avec basculement automatique - Groupes de refroidissement et groupes de traitement d'air de secours avec basculement automatique - Bande passante importante sur les réseaux principaux des opérateurs (AT & T, XO Comm) - Fournisseurs de réseau redondants - Routeurs centraux redondants, pare-feu, équilibreurs de charge et commutateurs - Fonctionnement vérification de la mémoire et diagnostics du matériel avant le déploiement des serveurs

Les serveurs de marque nommée conviennent, mais s'ils sont vieux et ont passé le temps le plus souvent, vous feriez mieux de vérifier qu'ils passent des diagnostics matériels avant de les utiliser.

Un bon centre de données devrait fournir à ses clients un site Web leur permettant de surveiller leur consommation de bande passante et leur disponibilité. Ils devraient également répondre aux questions. Demandez-leur la marque et le modèle de leur UPS. Demandez-leur de voir la charge actuelle de l'onduleur. Avec cette information, vous pouvez vérifier combien de temps il peut rester sans électricité.

Mais honnêtement, l’UPS ne devrait pas vous concerner. Un UPS ne fournit qu'un bref temps de disponibilité (environ 30 minutes). Une bien meilleure préoccupation est de savoir si le CD a un générateur de secours. Il est également intéressant de demander sur quel réseau le contrôleur de domaine est activé. En ce qui concerne les baisses de tension et les pannes de courant, différentes priorités sont attribuées à différentes grilles. Devine quoi? Les hôpitaux et les casernes de pompiers sont hautement prioritaires (le courant n'est jamais coupé). Si le centre de données est sur le même réseau, son alimentation est fiable et fiable.

Demandez-leur quelle quantité d'énergie disponible par rack. Là où je travaille, nous fournissons à chaque rack 3 circuits de 25 ampères. Un serveur 1U typique consomme 1-3 ampères.

80skeys
la source
Celui que je suis tenté d'aller à a 40amp par rack. Est-ce trop bas? C'est presque la moitié de ce que vous dites (75amp).
AX1
1
@ AX1, 40A à 110V est 4400W; à 230V c'est 9200W. À moins que ce soit haute densité (Twin / Twin ^ 2 / Blade) ou HPC / GPU, c'est beaucoup.
Mircea Chirea