Fréquence / durée de vie de la batterie du cache du contrôleur RAID matériel?

14

Je suis dans un environnement qui contient de nombreux serveurs Supermicro équipés de contrôleurs RAID matériels Adaptec et LSI MegaRAID . Ces contrôleurs contiennent des modules de cache alimentés par batterie pour améliorer les performances d'écriture et protéger les données en transit.

Un problème de support fréquent est la défaillance de la batterie du contrôleur RAID. Cela fait passer le tableau du mode d' écriture différée au mode d' écriture directe. Il y a clairement un impact négatif sur les performances car le système fonctionne avec une vitesse d'écriture dégradée. Cela persiste jusqu'à ce qu'une fenêtre d'indisponibilité puisse être établie pour éteindre le système et remplacer la batterie.

C'est une opération très routinière pour nous; presque chaque semaine sur plusieurs milliers de serveurs physiques ... Nous avons même des stations de charge en place pour préparer des batteries de remplacement afin de pouvoir les remplacer sans cycle de charge.

Je suis peut-être gâté par une longue histoire avec les serveurs HP ProLiant et les contrôleurs RAID Smart Array , mais les systèmes HP ont généralement une durée de vie de la batterie de 4 à 6 ans. Ils ont finalement éliminé l'utilisation de batteries RAID vers 2009. Elles ont été remplacées par des modules de mémoire à supercondensateur (cache d'écriture à mémoire flash ou FBWC) et ne nécessitent pas de remplacement, d'élimination ou de cycle de charge initial long.

Étant donné que je constate que les pannes de batterie des contrôleurs Adaptec et LSI se produisent parfois sur des systèmes qui sont en service depuis moins de 12 mois, je me demande si cela est courant dans d'autres environnements.

Si cela est courant, comment les autres grands environnements de serveurs gèrent-ils cela?

  • Des trucs ou astuces pour gérer les remplacements de batterie RAID?
  • Y a-t-il des paramètres de configuration qui peuvent vous aider?
  • Dans quelle mesure cela perturbe-t-il les opérations dans votre environnement?
  • Le mauvais refroidissement du châssis et la température peuvent-ils être un facteur?
  • Faisons-nous quelque chose de mal?
  • Les contrôleurs Dell PERC sont fabriqués par LSI. Les environnements Dell connaissent-ils les mêmes durées de vie de batterie courtes?

Documentation produit LSI décrivant une batterie de nouvelle génération qui peut durer plus longtemps que 1 an. entrez la description de l'image ici

Serveur HP ProLiant DL585 G2 avec une disponibilité de plus de 1000 jours et une batterie RAID heureuse ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
ewwhite
la source
2
Juste un indice: la dernière génération de contrôleurs Adaptec utilise également des supercaps / flash au lieu de piles.
Sven
Oh, je suis conscient que tous les fabricants ont maintenant des solutions basées sur des supercaps , mais compte tenu de l'encombrement d'installation existant, il est difficile d'apporter un changement général à travers l'infrastructure.
ewwhite
2
Je n'ai jamais fait cela (probablement parce que cela semble être une mauvaise idée et je n'ai pas eu le problème aussi souvent que vous), mais vous pouvez essayer de remplacer une batterie RAID sur un serveur de test pendant qu'il est allumé. Faites-le glisser, retirez le couvercle, déconnectez la mauvaise batterie et connectez la bonne, puis remettez-la dans le rack ... Si tout se passe bien, vous avez un nouveau processus de remplacement de la batterie qui n'implique pas de temps d'arrêt.
août
2
@August Uhm, au fur et à mesure des procédures risquées, cela semble assez élevé sur la liste "OMG WHERE DID MY DATA GO".
Dan
2
Oui, bien sûr ... Je suis d'accord que cela ressemble à une idée horrible, mais étant donné la situation et l'exigence d'aucun temps d'arrêt, cela pourrait valoir la peine d'être testé sur un serveur de test (ou trente serveurs de test ...) pour voir si c'est le cas. possible. Quelle est une autre option en plus de refaire l'infrastructure pour ne pas compter sur des batteries RAID individuelles dans des milliers de serveurs?
août

Réponses:

9

Je soupçonne que vos Supermicros sont cassés d'une manière ou d'une autre - peut-être que les batteries sont en surchauffe. Les LSI les plus récents signalent la température via MegaCLI - vous souhaiterez peut-être surveiller cette valeur sur les serveurs qui devaient être remplacés.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

J'ai vu quelques systèmes Dell et Fujitsu avec des contrôleurs LSI BBU, aucun d'entre eux n'avait de remplacement annuel de la batterie (sauf que vous avez vissé le pack par décharge profonde). La durée de vie typique a été d'environ 3 à 5 ans.

le-wabbit
la source
4
J'ajouterais qu'à moins que le système n'autorise EXPLICITEMENT le remplacement à chaud du RAID BBU, je ne le tenterais pas. Je n'ai jamais vu un système nécessiter un remplacement annuel de la batterie du cache RAID. 3-5 ans est une durée de vie typique.
voretaq7
Je pense que tu l'as!
ewwhite
1

La durée de vie moyenne de la batterie devrait être de 3 à 5 ans. Et n'oubliez pas que le FBWC basé sur flash échoue également. Je ne sais pas pourquoi / comment, mais nous les remplaçions régulièrement sur nos serveurs HP. Je devrais durer plus longtemps que la batterie, mais je n'ai pas de statistiques de nos serveurs individuels.

La manière standard de prévenir les effets d'une batterie défaillante et de l'apprentissage de la batterie est d'avoir plusieurs batteries. C'est ainsi que le stockage HP (comme HP EVA) l'a. Vous avez 2 batteries hot-plug et pendant que l'une est à faible charge ou en cours de remplacement, le contrôleur fonctionne avec l'autre. Je ne sais pas s'il est possible d'avoir plusieurs batteries connectées à SmartArray, mais la hpacucli diagsortie suggère qu'elle devrait être prise en charge:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
Marki555
la source
1

D'après mon expérience avec les versions IBM des plates-formes LSI sur quelques centaines d'installations, la batterie moyenne fait à peine 2 ans et la supercap n'est pas meilleure, dont certaines peuvent être corrigées avec une mise à jour du firmware, mais LSI ne l'a tout simplement pas droite. J'ai eu environ 75% d'échecs de supercap au cours des 2 premières années.

marque
la source