Les contrôleurs RAID ont-ils généralement des problèmes de compatibilité avec la marque des disques SATA?

22

Nous avons eu du mal avec le contrôleur RAID de notre serveur de base de données, un Lenovo ThinkServer RD120. C'est un Adaptec rebaptisé que Lenovo / IBM surnomme le ServeRAID 8k .

Nous avons corrigé ce ServeRAID 8k jusqu'à la toute dernière et la meilleure:

  • Version du BIOS RAID
  • Version bios du fond de panier RAID
  • Pilote Windows Server 2008

Ce contrôleur RAID a eu plusieurs mises à jour critiques du BIOS, même dans le court laps de temps de 4 mois que nous l'avons possédé, et l' historique des modifications est juste ... eh bien, effrayant.

Nous avons essayé des stratégies d'écriture différée et d'écriture directe sur les disques RAID logiques. Nous obtenons toujours des erreurs d'E / S intermittentes en cas d'activité intense du disque. Ils ne sont pas courants, mais graves lorsqu'ils se produisent, car ils entraînent des délais d'expiration d'E / S SQL Server 2008 et parfois l'échec des pools de connexions SQL.

Nous étions à la fin de notre corde pour résoudre ce problème. À court de trucs hardcore comme remplacer le serveur entier, ou remplacer le matériel RAID, nous devenions désespérés.

Lorsque j'ai eu le serveur pour la première fois, j'ai eu un problème où la baie de lecteur # 6 n'était pas reconnue. Étrangement, changer les disques durs d'une marque différente a corrigé cela - et la mise à jour du BIOS RAID (pour la première fois) l'a définitivement corrigé, donc j'ai pu utiliser le disque "incompatible" d'origine dans la baie 6. Sur un intuition, j'ai commencé à supposer que les disques durs Western Digital SATA que j'ai choisis étaient en quelque sorte incompatibles avec le contrôleur ServeRAID 8k.

L'achat de 6 nouveaux disques durs était l'une des options les moins chères sur la table, alors j'ai opté pour 6 disques durs Hitachi (alias IBM, alias Lenovo) sous la théorie qu'un contrôleur RAID IBM / Lenovo est plus susceptible de fonctionner avec les disques qu'il est généralement vendu avec.

On dirait que cette intuition a payé - nous avons traversé trois de nos jours de charge les plus lourds (lundi, mardi, mercredi) sans une seule erreur d'E / S d'aucune sorte. Avant cela, nous avions régulièrement au moins un «événement» d'E / S au cours de cette période. Il semble que changer de marque de disque dur ait résolu nos problèmes intermittents d'E / S RAID!

Bien que je comprenne qu'IBM / Lenovo teste probablement leur contrôleur RAID exclusivement avec leur propre marque de disques durs, je suis troublé qu'un contrôleur RAID ait des problèmes d'E / S si subtils avec des marques particulières de disques durs.

Ma question est donc la suivante : ce type d'incompatibilité de disques SATA est-il courant avec les contrôleurs RAID? Existe-t-il des marques de disques qui fonctionnent mieux que d'autres ou qui sont "validées" par rapport à un contrôleur RAID particulier? J'avais en quelque sorte supposé que tous les disques durs SATA standard se ressemblaient et fonctionneraient raisonnablement bien dans n'importe quel contrôleur RAID donné (de qualité suffisante).

Jeff Atwood
la source

Réponses:

6

Oui , je l'ai rencontré avec des cartes bas de gamme et des pilotes de buggy. Cependant, non , pas sur une carte rebaptisée Adaptec à jour. Wow est tout ce que je peux dire. Une chose à considérer, c'est peut-être plus un bug avec le lecteur que le contrôleur RAID.

Je n'ai pas de bonne réponse, mais comme vous semblez avoir épuisé la plupart de vos options autres que le remplacement de la carte (et le remplacement des lecteurs a fait l'affaire), voici quelques idées que vous pouvez envisager pour votre dépannage:

  • Les disques WD étaient des disques RE (RAID Edition), non? La récupération d'erreur limitée dans le temps est importante, donc si vous ne l'avez pas et que le lecteur tente de récupérer le secteur, vous obtiendrez une longue pause de ce lecteur. Si le contrôleur RAID est patient et ne fait pas tomber le lecteur, vous aurez un gros problème entre vos mains.

  • Vérifiez les données SMART sur les lecteurs que vous avez retirés et voyez s'il y a quelque chose d'intéressant.

Un autre commentaire sur l'importance de la fonction de récupération d'erreur limitée dans le temps (TLER), du support du fournisseur NAS / RAID:

Comme je l'ai mentionné précédemment, nous suggérons toujours aux clients d'utiliser des disques de niveau entreprise s'ils utilisent les disques dans les paramètres RAID. Les disques de niveau entreprise ont un temps de réponse plus cohérent afin que le RAID soit plus sûr.

TorgoGuy
la source
ne sais pas, mais ils ont eu "la récupération d'erreur limitée dans le temps spécifique au RAID" comme indiqué sur l'onglet spécifications ici .. newegg.com/Product/Product.aspx?Item=N82E16822136143
Jeff Atwood
Ouais, tu as les bons. (Remarquez le RE2 répertorié dans le titre.) Cela détruit cette théorie! Bien sûr, je vérifierais toujours les données SMART au cas où (ouais, je sais que c'est rarement utile) ...
TorgoGuy
il s'avère que les lecteurs étaient en quelque sorte floconneux, après tout. Brent Ozar a hérité de nos anciens disques et a dû RMA au moins l'un d'entre eux pour des bizarreries ..
Jeff Atwood
également, une discussion connexe intéressante sur la fonctionnalité TLER que certains fournisseurs considèrent comme un morceau logiciel spécial qu'ils retournent pour rendre les disques magiquement "d'entreprise". fatwallet.com/forums/expired-deals/993547
Jeff Atwood
13

Même pour les disques durs de bureau non RAID, anciens, l'achat de disques auprès du fournisseur (au balisage ridicule attendu) peut souvent faire la différence. Par exemple, Apple prend soin de ne livrer que des disques réellement capables d' honorer le F_FULLSYNC fcntl()drapeau de Mac OS X , ce qui contribue grandement à garantir la fiabilité des choses comme les sauvegardes Time Machine .

Encore une fois, c'est une utilisation de bureau vanille sans aucun RAID impliqué. Quelque chose de plus complexe que cela et que vous voulez vraiment acheter, sinon les propres disques trop chers du vendeur, alors au moins les modèles de disques que vous savez avec certitude sont sur la liste "approuvée" du vendeur.

Donc, pour répondre à votre question, est-ce courant? Je dirais, oui, plus commun que vous ne le pensez, même au-delà du domaine de l'entreprise.

John Siracusa
la source
Je voudrais certainement obtenir les modèles de disques que le vendeur vend habituellement si vous envisagez de faire une mise à niveau de votre disque dur pour réduire les coûts. Je recommanderais également de ne pas acheter de lecteurs (ou de contrôleurs) avec lesquels le système vient juste de commencer à être livré afin que vous ne finissiez pas par être celui qui trouve les bogues! SATA semble plus floconneux que SAS à cet égard pour une raison quelconque
Christopher Edwards
4

Je ne pense pas que ce soit courant en soi. Cependant, dès que vous commencez à utiliser des contrôleurs de stockage d'entreprise, qu'il s'agisse de contrôleurs SAN ou de contrôleurs RAID autonomes, vous souhaiterez généralement adhérer assez étroitement à leur liste de compatibilité.

Vous pourrez peut-être économiser de l'argent sur le prix de l'autocollant en achetant une gamme de disques bon marché, mais c'est probablement l'un des derniers domaines sur lesquels je voudrais économiser de l'argent - compte tenu de l'importance des données dans la plupart des scénarios.

En d'autres termes, l'incompatibilité explicite est très rare, mais l'adhésion à la compatibilité explicite est recommandée.

Mark S. Rasmussen
la source
4

Je ne rêverais pas d'utiliser des disques SATA pour un serveur - aucun d'entre eux n'a le cycle de service attendu d'un lecteur de qualité serveur et ils n'ont pas l'ensemble de commandes riche que SCSI / SAS a pour surveiller les performances et l'intégrité du lecteur. Les serveurs Lenovo sont bon marché et géniaux si vous avez beaucoup de serveurs dont aucun n'est vraiment important, mais il y a une raison pour laquelle les serveurs HP de la série 300 représentent 40% du marché - ils fonctionnent. En particulier, leurs contrôleurs de disque «SmartArray» sont inégalés en termes de fiabilité et de performances et leur garantie de pré-défaillance est un ajout bienvenu. Pas le moins cher mais combien vaut votre temps? J'achète leurs serveurs (enfin Compaq first tbh) depuis vingt ans maintenant et je n'ai aucun problème à en acheter 500 à 800 nouveaux par an. Vérifiez-les sérieusement.

Chopper3
la source
2

La réponse est comme toujours "ça dépend".

Pour certains systèmes de stockage d'entreprise (disons EMC), le fournisseur qualifiera spécifiquement les disques et ira même jusqu'à charger le firmware personnalisé.

Comme le dit Mark, je trouve que c'est le meilleur lorsque vous suivez la liste approuvée d'un fournisseur, s'il y en a une. Les économies de coûts initiales sont compensées par le temps passé à traquer les gremlins.

Jauder Ho
la source
C'est vrai, mais les disques Hitachi SATA «spéciaux» de Lenovo coûtent 250 $, et je peux acheter le même disque Hitachi pour 60 $. C'est un différentiel de près de 5x, en d'autres termes .. 1250 $ contre 300 $. Je suis prêt à faire une expérimentation pour un grand ..
Jeff Atwood
Je sais que le balisage est parfois ridicule, vous devriez voir le prix des disques EMC! Mais cela se résume à la valeur que vous accordez à vos données. Un stockage fiable coûte cher. Don MacAskill de Smugmug ne tarit pas d'éloges sur le Sun 7410 et c'est peut-être quelque chose que vous voudrez vérifier.
Jauder Ho
Je me demande s'il existe une carte 3ware prise en charge. J'ai eu de bonnes expériences avec eux au fil des ans.
Jauder Ho
2

Vous avez un contrôleur SAS, cela pourrait être le problème. Alors que le protocole SAS peut être utilisé pour tunneler les commandes ATA, la signalisation au niveau physique est un peu différente (SAS utilise une tension plus élevée et un différentiel plus large). Presque tous les contrôleurs sont capables de parler directement aux disques SATA, mais s'il y a un fond de panier (gros? Merdique?) Au milieu, le signal pourrait être perturbé. Habituellement dans le monde de l'entreprise, attacher directement des pilotes SATA à un contrôleur SAS n'est pas officiellement prise en charge, vous devez utiliser un interposeur (une petite carte logique qui se connecte directement au disque qui, d'un côté, comprend le protocole SAS complet, de l'autre parle ATA - de cette façon, le fond de panier transporte la signalisation SAS la plus élevée).

Assez lié: le mélange des disques SAS et SATA sur le même fond de panier a tendance à échouer, car la signalisation de tous les disques (y compris SAS) est abaissée au niveau SATA.

Luca Tettamanti
la source
1

Vos disques WD ont probablement besoin d'une mise à jour du firmware . Consultez cette note IBM pour télécharger et appliquer la mise à jour. Comme vous pouvez le voir dans les instructions , les disques WD sont loin d'être les seuls à avoir des problèmes.

Si vous allez placer vos disques dans un environnement de serveur exigeant, vous rencontrerez inévitablement plus de problèmes que dans une configuration de bureau classique.

Pourriez-vous peut-être expliquer pourquoi vous avez choisi de choisir la série de disques de bureau Deskstar au lieu de la série Ultrastar de classe Enterprise / RAID ? Pensez-vous que le coût supplémentaire ne vaut pas la fiabilité et la vitesse supplémentaires?

Peter Stuer
la source
en ce qui concerne les disques durs, je crois en beaucoup d'entre eux - des baies bon marché et facilement remplaçables, où les performances viennent de l'échelle.
Jeff Atwood
Soyez prudent lorsque vous utilisez des disques de bureau avec des contrôleurs de stockage de qualité entreprise. Les lecteurs de niveau entreprise prennent généralement en charge les commandes et les requêtes que les lecteurs de bureau ne prennent pas en charge. Un serveur d'entreprise dont j'ai hérité une fois utilisait des disques de qualité bureau et voyait des erreurs fréquentes lorsque le contrôleur tentait d'obtenir des informations sur la température et l'état de santé des disques. Étant donné que les contrôleurs d'entreprise supposent que vous utiliserez des lecteurs d'entreprise, le contrôleur n'a pas pu gérer correctement un lecteur qui n'a pas répondu à ces demandes (car il ne s'agissait pas d'une configuration prise en charge). Tout est très YMMV
bta
0

En tant qu'ingénieur qui travaille avec des contrôleurs RAID, je peux dire qu'il n'est pas rare que certaines marques de disques aient des problèmes avec certains contrôleurs RAID. Chaque lecteur a ses particularités particulières, et tout modèle de lecteur répertorié dans la liste des "appareils compatibles" du contrôleur aura ses bizarreries prises en compte par le contrôleur. Pour qu'un modèle de lecteur apparaisse sur la liste, il doit répondre aux normes de performance et de fiabilité du fabricant du contrôleur. Tout lecteur ne figurant pas sur cette liste peut fonctionner, mais puisqu'il n'a pas subi les mêmes tests rigoureux que les périphériques "approuvés", YMMV.

En particulier, le protocole SATA permet des commandes spécifiques au fournisseur (non standardisées) qui peuvent être définies par le lecteur ou le contrôleur. Dans votre cas, vous voyez peut-être un contrôleur qui attend qu'un lecteur réponde à une commande propriétaire particulière ou un lecteur qui attend de voir une commande propriétaire qui n'arrive jamais.

Une autre possibilité est que vos lecteurs problématiques ne se comportent pas très bien sous certaines charges de travail stressantes, et le comportement que vous voyez était suffisant pour qu'Adaptec / IBM ne répertorie pas ce modèle de lecteur comme pris en charge.

Malheureusement, les protocoles de stockage (SATA, SAS, etc.) ne sont pas aussi agréables que d'autres interfaces standardisées (USB, PCI, etc.) où tout ce dont vous avez besoin est un bus et un périphérique qui parlent le même langage et tout va bien. En particulier en ce qui concerne les équipements de qualité entreprise, les fabricants d'appareils et les fabricants de disques passent beaucoup de temps et d'énergie de collaboration pour garantir que les clients obtiennent les meilleures performances possibles des configurations utilisées par la majorité des clients (c'est-à-dire, en utilisant des disques hors du liste "appareils pris en charge"). Un lecteur qui ne figure pas sur cette liste peut avoir été conçu pour fonctionner de manière optimale avec une autre marque de contrôleur, et les erreurs que vous voyez sont un effet secondaire de l'optimisation.

bta
la source