Ici, nous avons quelques serveurs et presque chacun d'eux a un onduleur dédié. Il existe des dépendances entre elles, elles doivent donc être activées dans le bon ordre. En fin de compte, nous rencontrons de graves problèmes d'alimentation, de sorte que les serveurs sont arrêtés puis redémarrés dans un ordre aléatoire lorsque l'alimentation est rétablie. Ce n'est pas un problème si les serveurs ont été éteints pendant une panne de courant, il est important qu'ils fonctionnent correctement sans aucune intervention humaine une fois l'alimentation rétablie.
Nos UPS sont assez bon marché et le seul paramètre de configuration utile pour mon objectif est power the load xx seconds after power is restored
. En théorie, en mettant les bons retards sur chaque onduleur, je peux fixer l'ordre de redémarrage du serveur, mais je ne pense pas que l'onduleur se comportera comme prévu.
Est-ce la bonne façon de procéder?
L'onduleur de haut niveau offre-t-il d'autres options pour fixer la séquence de redémarrage?
Une dernière remarque: mes Ups sont dans la plage de 1000 à 2200 VA
systemd
- la possibilité de définir les dépendances appropriées dans le processus de démarrage. Attendez que le service X soit disponible avant d'essayer de démarrer le service Y.systemd
instance et non pour des services s'exécutant sur des serveurs complètement différents ...Réponses:
La réponse standard est "pas du tout". Correction du logiciel pour gérer les redémarrages dans un ordre aléatoire. Si vous avez vraiment besoin de QUELQUES serveurs pour démarrer en premier (exemple: Active Directory) mettez-les sur des USV qui survivent peut-être BEAUCOUP plus longtemps. Un serveur basé sur un atome de faible puissance est assez bon en tant que contrôleur Active Directory et survivra une journée sur un petit USV.
Non. Je dirais qu'il est généralement admis que les programmeurs sont suffisamment compétents pour contourner correctement le problème.
Ce que vous POUVEZ faire, c'est:
Je dirais que ce type de configuration est beaucoup plus courant. J'appellerais tout logiciel nécessitant le démarrage du serveur dans un ordre particulier (en dehors de l'infrastructure pure) comme étant défectueux et impropre à l'entreprise.
Juste comme note: notre propre configuration est un USV 20kva à faible coût (faible coût parce que nous en avons utilisé un) pour les serveurs, avec un USV 2000VA asservi pour une machine servant de "racine" du réseau (et machine de sauvegarde). Asservi signifie que l'USV est derrière le gros - il ne passe donc à la batterie que lorsque le gros (qui dure entre une demi-heure et 8 heures selon la quantité de notre grille de calcul en ligne) entre en arrêt de terminal.
la source
Les unités de distribution d'alimentation gérée (plutôt que l'onduleur) prennent souvent en charge des délais personnalisés pour activer les prises individuelles après la reprise de l'alimentation.
Il s'agit généralement d'empêcher les disjoncteurs de se déclencher lorsqu'une armoire remplie de systèmes se met sous tension en même temps immédiatement après la restauration de l'alimentation, mais cela peut également être utilisé pour préserver l'ordre de démarrage de vos dépendances système.
la source
J'avais ce problème précis. La seule différence étant que nous avons investi dans des unités d'alimentation APC robustes montées en rack (par exemple APC SmartUPS 3000 ). Avec le logiciel d'arrêt de réseau APC PowerChute (logiciel d'arrêt de réseau PowerChute) , je suis capable d'arrêter et de faire monter des serveurs dans un ordre spécifique. Une autre caractéristique pratique du logiciel était de configurer les serveurs pour qu'ils s'arrêtent à la toute dernière minute, c'est-à-dire de calculer la puissance de batterie restante des unités APC et d'arrêter les serveurs avec juste assez de temps pour qu'ils s'arrêtent correctement au lieu de simplement s'éteindre.
Le logiciel n'est ... pas convivial mais ce n'est rien de difficile si vous prenez le temps de le comprendre. Si vous souhaitez investir davantage dans votre infrastructure, c'est certainement la voie à suivre.
la source
Il semble que les onduleurs soient peu coûteux et ne puissent pas être configurés pour un temps d'attente de sortie spécifique après le rétablissement du courant (certaines unités haut de gamme le sont). Pour obtenir les mêmes fonctionnalités, vous devez choisir un hôte spécifique pour qu'il s'allume toujours immédiatement (peut-être le système autorisé à démarrer à tout moment) et laisser tous les autres serveurs hors tension (configurés dans le BIOS pour revenir au pouvoir éteint lorsque le courant alternatif est appliqué, et pour honorer le paquet magique Wake On Lan à la mise sous tension lorsqu'il est invité à le faire). Ensuite, sur l'hôte principal qui démarre, exécutez un script / utilitaire pour chronométrer la transmission du paquet magique WOL à chaque hôte.
la source