Je suis dans un environnement qui contient de nombreux serveurs Supermicro équipés de contrôleurs RAID matériels Adaptec et LSI MegaRAID . Ces contrôleurs contiennent des modules de cache alimentés par batterie pour améliorer les performances d'écriture et protéger les données en transit.
Un problème de support fréquent est la défaillance de la batterie du contrôleur RAID. Cela fait passer le tableau du mode d' écriture différée au mode d' écriture directe. Il y a clairement un impact négatif sur les performances car le système fonctionne avec une vitesse d'écriture dégradée. Cela persiste jusqu'à ce qu'une fenêtre d'indisponibilité puisse être établie pour éteindre le système et remplacer la batterie.
C'est une opération très routinière pour nous; presque chaque semaine sur plusieurs milliers de serveurs physiques ... Nous avons même des stations de charge en place pour préparer des batteries de remplacement afin de pouvoir les remplacer sans cycle de charge.
Je suis peut-être gâté par une longue histoire avec les serveurs HP ProLiant et les contrôleurs RAID Smart Array , mais les systèmes HP ont généralement une durée de vie de la batterie de 4 à 6 ans. Ils ont finalement éliminé l'utilisation de batteries RAID vers 2009. Elles ont été remplacées par des modules de mémoire à supercondensateur (cache d'écriture à mémoire flash ou FBWC) et ne nécessitent pas de remplacement, d'élimination ou de cycle de charge initial long.
Étant donné que je constate que les pannes de batterie des contrôleurs Adaptec et LSI se produisent parfois sur des systèmes qui sont en service depuis moins de 12 mois, je me demande si cela est courant dans d'autres environnements.
Si cela est courant, comment les autres grands environnements de serveurs gèrent-ils cela?
- Des trucs ou astuces pour gérer les remplacements de batterie RAID?
- Y a-t-il des paramètres de configuration qui peuvent vous aider?
- Dans quelle mesure cela perturbe-t-il les opérations dans votre environnement?
- Le mauvais refroidissement du châssis et la température peuvent-ils être un facteur?
- Faisons-nous quelque chose de mal?
- Les contrôleurs Dell PERC sont fabriqués par LSI. Les environnements Dell connaissent-ils les mêmes durées de vie de batterie courtes?
Documentation produit LSI décrivant une batterie de nouvelle génération qui peut durer plus longtemps que 1 an.
Serveur HP ProLiant DL585 G2 avec une disponibilité de plus de 1000 jours et une batterie RAID heureuse ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
la source
Réponses:
Je soupçonne que vos Supermicros sont cassés d'une manière ou d'une autre - peut-être que les batteries sont en surchauffe. Les LSI les plus récents signalent la température via MegaCLI - vous souhaiterez peut-être surveiller cette valeur sur les serveurs qui devaient être remplacés.
J'ai vu quelques systèmes Dell et Fujitsu avec des contrôleurs LSI BBU, aucun d'entre eux n'avait de remplacement annuel de la batterie (sauf que vous avez vissé le pack par décharge profonde). La durée de vie typique a été d'environ 3 à 5 ans.
la source
La durée de vie moyenne de la batterie devrait être de 3 à 5 ans. Et n'oubliez pas que le FBWC basé sur flash échoue également. Je ne sais pas pourquoi / comment, mais nous les remplaçions régulièrement sur nos serveurs HP. Je devrais durer plus longtemps que la batterie, mais je n'ai pas de statistiques de nos serveurs individuels.
La manière standard de prévenir les effets d'une batterie défaillante et de l'apprentissage de la batterie est d'avoir plusieurs batteries. C'est ainsi que le stockage HP (comme HP EVA) l'a. Vous avez 2 batteries hot-plug et pendant que l'une est à faible charge ou en cours de remplacement, le contrôleur fonctionne avec l'autre. Je ne sais pas s'il est possible d'avoir plusieurs batteries connectées à SmartArray, mais la
hpacucli
diag
sortie suggère qu'elle devrait être prise en charge:la source
D'après mon expérience avec les versions IBM des plates-formes LSI sur quelques centaines d'installations, la batterie moyenne fait à peine 2 ans et la supercap n'est pas meilleure, dont certaines peuvent être corrigées avec une mise à jour du firmware, mais LSI ne l'a tout simplement pas droite. J'ai eu environ 75% d'échecs de supercap au cours des 2 premières années.
la source