Les disques «entreprise» peuvent-ils être remplacés en toute sécurité par une ligne proche / médiane dans certaines situations?

22

Lorsque je spécifie des serveurs, comme (je suppose) de nombreux ingénieurs qui ne sont pas des experts en stockage, je vais généralement le jouer en toute sécurité (et peut-être être un esclave du marketing) en standardisant sur un minimum de 10 000 disques SAS (et donc " entreprise "- mise à niveau avec un cycle d'utilisation 24h / 24, 7j / 7, etc.) pour les données" système "(généralement OS et parfois applications), et réserver l'utilisation de disques 7,2k mid / nearline pour le stockage de données non système où les performances ne sont pas significatives facteur. Tout cela suppose des disques de 2,5 "(SFF), car les disques de 3,5" (LFF) ne sont vraiment pertinents que pour les besoins de capacité élevée et de faibles IOP.

Dans les situations où il n'y a pas une grande quantité de données non système, je les place généralement sur les mêmes disques / baies que les données système, ce qui signifie que le serveur ne dispose que de 10 000 disques SAS (généralement de type «One Big RAID10») de configuration ces jours-ci). Ce n'est que si la taille des données non-système est importante que j'envisage généralement de les placer sur une matrice distincte de 7,2 k disques mid / nearline pour réduire le coût / Go.

Cela m'amène à me demander: dans certaines situations, ces disques 10k de la matrice RAID10 auraient-ils pu être remplacés par des disques 7,2k sans conséquence négative significative? En d'autres termes, est-ce que je sur-spécifie parfois (et que les fournisseurs de matériel soient satisfaits) en respectant un minimum de 10 000 disques de qualité «entreprise», ou y a-t-il une bonne raison de toujours s'en tenir au minimum?

Par exemple, prenez un serveur qui agit comme un hyperviseur avec quelques machines virtuelles pour une petite entreprise typique (disons 50 utilisateurs). La société a des modèles d'E / S moyens sans exigences particulières. Bureau typique 9-5, du lundi au vendredi, avec des sauvegardes exécutées pendant quelques heures par nuit. Les machines virtuelles pourraient peut-être être un contrôleur de domaine et un serveur de fichiers / d'impression / d'application. Le serveur dispose d'une matrice RAID10 avec 6 disques pour stocker toutes les données (données système et non système). À mon avis, il semble que les disques mid / nearline puissent très bien fonctionner. Prenons l'exemple des disques HP:

  • Charge de travail: les disques intermédiaires sont conçus pour une charge de travail <40%. Le bureau n'étant ouvert que 9 heures par jour et les E / S moyennes pendant cette période ne pouvant être proches du maximum, il semble peu probable que la charge de travail dépasse 40%. Même avec quelques heures d'E / S intenses la nuit pour les sauvegardes, je suppose que ce serait toujours en dessous de 40%
  • Vitesse: bien que les disques ne soient que 7,2k, les performances sont améliorées en les répartissant sur six disques

Donc, ma question: est-il judicieux de coller un minimum de 10 000 disques SAS, ou les disques de 7,2 k midline / nearline sont-ils réellement plus que suffisants dans de nombreuses situations? Si oui, comment puis-je évaluer où se trouve la ligne et éviter d'être l'esclave de l'ignorance en jouant la sécurité?

Mon expérience est principalement avec les serveurs HP, donc ce qui précède peut avoir un peu une inclinaison HP, mais je suppose que les principes sont assez indépendants du fournisseur.

dbr
la source
3
Les disques intermédiaires SFF 7,2k n'ont aucun sens en raison des limitations de capacité et de service. Si vous parlez d'équipement HP (ma spécialité) , les disques SAS 900 Go et 1,2 To 10k seront la meilleure option si vous n'utilisez pas de SSD. Si vous êtes aux États-Unis, 900 Go SAS devrait être ~ 300-400 $ si vous avez un bon fournisseur.
ewwhite
1
Plainte grammaticale mineure: si vous dites "remplacer X par Y", cela signifie que vous aviez Y pour commencer et que vous le remplacez par X.
pjc50
2
Êtes-vous sûr de vivre en 2015? Parce que depuis quelques années, mon lecteur OS est un petit SSD (économie d'énergie, etc.) et je ne toucherais pas non plus à un disque dur pour des performances élevées.
TomTom
1
@TomTom Non, je suis en 2016 :) Sérieusement, je n'y ai pas vraiment réfléchi. Comme je l'ai dit dans mon article, je vais généralement adopter une approche "un seul grand RAID 10" ces jours-ci, donc le système d'exploitation continuera. Séparer le système d'exploitation sur un SSD séparé semble inutile si ce n'est pas vraiment nécessaire. Je serais intéressé d'entendre vos pensées. Souhaitez-vous utiliser un seul SSD ou une paire en miroir? Peut-être que cela ferait une bonne question SF en soi ...
dbr
1
Paire en miroir pour OS. HP vend même des SSD spécifiques au système d'exploitation / démarrage.
ewwhite

Réponses:

25

Il y a ici une intersection intéressante entre la conception des serveurs, la technologie des disques et l'économie:

Voir aussi: Pourquoi les disques LFF (Large Form Factor) sont-ils encore assez répandus?

  • L'évolution vers un montage en rack dense et des serveurs de petit format. Par exemple, vous ne voyez plus beaucoup d'offres de tours des principaux fabricants, tandis que les gammes de produits plus denses bénéficient de révisions plus fréquentes et ont plus d'options / disponibilité.
  • Stagnation dans le développement de disques 3,5 "pour entreprise (15k) - 600 Go 15k 3,5" est à peu près aussi grand que possible.
  • Progression lente dans les capacités de disque de 2,5 "en ligne proche (7,2k) - 2 To est le plus grand que vous y trouverez.
  • Disponibilité accrue et prix réduits des SSD haute capacité.
  • Consolidation du stockage sur le stockage partagé. Les charges de travail à serveur unique qui nécessitent une capacité élevée peuvent parfois être traitées via SAN.
  • La maturation des baies de stockage 100% flash et hybrides, ainsi que l'afflux de startups de stockage.

Ce qui précède explique pourquoi vous trouvez généralement des fabricants axés sur les serveurs 1U / 2U avec 8-24 baies d'unité de disque de 2,5 ".

Les disques de 3,5 pouces sont destinés aux cas d'utilisation de grande capacité à faible IOP (2 To +). Ils sont idéaux pour les boîtiers de stockage externes ou le stockage SAN avec une certaine forme de mise en cache. Dans les vitesses d'entreprise de 15 000 tr / min, ils ne sont disponibles que jusqu'à 600 Go.

Les disques rotatifs de 2,5 "à 10 000 tr / min sont destinés à des besoins d'IOPS plus élevés et sont généralement disponibles jusqu'à 1,8 To de capacité.

Les disques rotatifs de 2,5 pouces à 7,2k tr / min sont un mauvais choix car ils n'offrent ni capacité, ni performances, ni longévité, ni avantages de prix. différence, le disque de 900 Go est le meilleur achat. Dans l'exemple de 1,8 To 10k SAS contre 2,0 To 7,2k SAS , les prix sont également très proches. Les garanties sont de 3 ans et 1 an, respectivement.

Par conséquent, pour les serveurs et le stockage interne de 2,5 pouces, utilisez un SSD ou 10 ko. Si vous avez besoin de capacités et que des baies de lecteur de 3,5 pouces sont disponibles en interne ou en externe, utilisez 7,2 k tr / min.

Pour les cas d'utilisation que vous avez décrits, vous ne configurez pas trop les serveurs. S'ils ont des baies de disques de 2,5 pouces, vous ne devriez vraiment utiliser que des disques SAS ou SSD 10 000. Les disques intermédiaires sont une perte de performances, de capacité, ont une garantie considérablement plus courte et n'économiseront pas beaucoup sur les coûts.

ewwhite
la source
Merci d'avoir pris le temps de mettre cela ensemble. J'aurai l'occasion de réfléchir sérieusement demain. En jetant un coup d'œil rapide sur les prix, cela ressemble à un saut de 30% entre les 1 To 7,2 ko et 900 Go 10 ko, ce qui n'est pas énorme (je suis au Royaume-Uni si cela importe). Cela pourrait être un facteur si vous avez un budget serré, mais lorsque vous essayez de faire des économies raisonnables à plusieurs endroits et que la sélection de disque n'est que l'un d'entre eux. J'aimerais aussi savoir ce que vous pensez de la question d'un point de vue purement technique.
dbr
D'un point de vue technique, il n'y a aucun avantage à un disque de 2,5 pouces à 7 200 tr / min. Si les coûts semblent trop éloignés, continuez à magasiner. Il y a peu de différence sur ce marché. S'il s'agit d'un disque de démarrage, le SSD est une bonne alternative. Mais je ne vois aucune raison pour laquelle j'utiliserais un disque HP 7200 2.5 "dans un serveur aujourd'hui. Lisez également attentivement vos quickspecs HP. Les disques Midline ont des garanties plus courtes.
ewwhite
1
En général, cette réponse est excellente. Mais comme pour tout le reste, "cela dépend". Dans l'exemple d'un disque de 900 Go 10k contre 1 To 7200, le disque de 1 To fonctionnera plus froid et durera donc peut-être plus longtemps, et sera moins cher. Si vous n'avez pas besoin des performances supplémentaires, c'est un gaspillage d'argent, à la fois le coût en capital d'origine et les opérations. Pour un serveur, cela n'a pas beaucoup d'importance. Pour 10, ça commence à s'additionner.
Dan Pritts
2
Vraiment, le disque qui s'exécute plus lentement durera plus longtemps? Un article qui me manque?
vasin1987
2
Du point de vue d'un fournisseur / fabricant, oui. Ils sont pilotent vous 10k et SSD 2,5" . Si vous étiez-boxing blanc, rendez - vous 7200 RPM. En fait, mon ZFS fournisseur de stockage, PogoStorage , utilisez 7200 RPM 2.5" pour leurs tableaux ZFS parce que la mise en cache et SSD tiering éliminer les besoin de spécifier des disques plus rapides.
ewwhite
5

Il y a au moins quelques éléments qui pourraient causer des problèmes avec CERTAINS types de lecteurs:

  • Lecteurs qui ne sont pas destinés à gérer la charge vibratoire d'un châssis comportant de nombreux lecteurs (problème peu probable avec tout lecteur spécifié comme compatible RAID / NAS)

  • Firmware qui n'autorise pas TLER ou nécessite une reconfiguration manuelle longue du lecteur pour l'activer (idem)

  • Les disques qui n'ont jamais été testés avec le contrôleur RAID utilisé et qui peuvent avoir des bogues non reconnus qui apparaissent dans une telle configuration

  • Les caches d'écriture du lecteur interne qui se comportent d'une manière (l'écriture physique est en panne ou très retardée) qui provoquent beaucoup de confusion en cas d'arrêt brutal (le contrôleur RAID doit être configuré pour forcer ces désactivations. Problème potentiel si le micrologiciel doit jamais ignorer Voir les disques non testés :)

  • Le lecteur peut occasionnellement effectuer des routines de maintenance internes qui peuvent faire en sorte que le lecteur se comporte lentement, ou réagisse avec suffisamment de retard, pour faire croire au contrôleur RAID qu'il a échoué (lié à TLER)

  • SATA en général, comme il est généralement implémenté, offre moins de protections par rapport à SAS contre un lecteur avec une électronique complètement tirée ou suspendue suspendant tout sur le contrôleur (pas un risque théorique, certaines combinaisons de marques disque + contrôleur adorent ce mode de défaillance).

rackandboneman
la source
1
Celles-ci semblent être des raisons d'utiliser des disques qualifiés avec le matériel du serveur et la pile d'applications, mais pas spécifiquement à propos de 10k vs 7k2 rpm.
poolie
1
La question peut facilement être (mal?) Comprise car "un disque non-entreprise de 7,2k, ou un disque conçu pour une utilisation en entreprise à lecteur unique, peut-il être utilisé dans l'application?". Et «en toute sécurité» impliquerait généralement de traiter les risques de perte de données ou de panne liés aux pannes.
rackandboneman
4

ÉNORME problème:

(Peut être un tout petit peu hors sujet - mais c'est important! )

Lorsque vous traitez avec des SSD - (comme c'est souvent le cas, ou peut être soit le cas, soit la tentation) - un beaucoup de SSD ont un problème désagréable où ils ne peuvent pas toujours se remettre de pannes de courant spontanées!

C'est un petit problème avec les disques durs. Les disques durs ont généralement une capacité suffisante pour alimenter leur logique et une quantité de mouvement angulaire suffisante pour mener les plateaux à la fin de l'écriture d'un bloc de 512 octets - en cas de perte d'alimentation en cours d'écriture. Une fois dans un rare moment, ce ne sera pas le travail, entraînant ce qu'on appelle une « écriture déchirée » - où un seul bloc peut être partiellement écrit. L'écriture partielle (albiet rare) entraînera un échec de somme de contrôle sur le bloc - c'est-à-dire que le bloc individuel sera mauvais. Cela peut généralement être détecté comme mauvais par les circuits du disque lui-même et corrigé par le contrôleur RAID en amont.

Les SSD sont un animal différent. Les implémentent généralement quelque chose appelé "nivellement d'usure" - où ils n'écrivent pas simplement "bloc X" à un emplacement physique pour "bloc X" comme le fait un disque dur. Au lieu de cela, ils essaient d'écrire à différents endroits sur le support flash - et ils essaient d'agréger ou de combiner les écritures (en utilisant un peu de tampon). Écrire aux différents endroits implique de garder une "carte" de l'endroit où les choses sont écrites, qui est également tamponnée et écrite de manière à réduire le nivellement de l'usure. Une partie du nivellement de l'usure peut même impliquer le déplacement de données qui sont déjà sur l'appareil et qui n'ont même pas été écrites récemment.

Ce problème est que lorsque le SSD perd de la puissance - il a beaucoup de données en mémoire (non vidées), il a des données qui ont été écrites vers des emplacements différents / modifiés - et il a ces cartes dans sa propre mémoire qui doivent être débusqué pour donner un sens à la structure de toutes les données sur l'appareil.

BEAUCOUP DE SSD n'ont pas la logique ou les circuits pour pouvoir garder leurs contrôleurs en place et en vie assez longtemps lors d'une mise hors tension spontanée pour vider en toute sécurité toutes ces données pour qu'elles clignotent avant de mourir. Cela ne signifie pas seulement qu'un bloc que vous avez écrit pourrait maintenant être en jeprody - mais d'autres blocs - même tous les blocs sur l'appareil pourraient être en difficulté. De nombreux appareils ont également des problèmes où non seulement ils perdent toutes les données sur l'appareil, mais l'appareil lui-même devient maillé et inutilisable.

Tout cela est une vraie théorie - mais (travaillant dans l'industrie du stockage) - j'ai / nous avons vu cela se produire trop de fois sur beaucoup trop d'appareils - y compris dans certains de nos ordinateurs portables personnels!

De nombreux fournisseurs ont discuté de la possibilité de créer des "SSD de qualité entreprise" dans lesquels des périphériques ("super-caps") et d'autres circuits sont spécifiquement ajoutés pour permettre un "flush" propre - mais il est très difficile de trouver un périphérique qui indique spécifiquement qu'il fait partie de son fiche technique qu'il dispose d'une protection suffisante, explicite et testée contre de tels événements et protégera contre de tels événements.

De toute évidence, si vous achetez une «baie de stockage haut de gamme» auprès d'un fournisseur de premier plan qui a utilisé la technologie flash, soit leurs disques - soit leur système dans son ensemble a été conçu avec tout cela en compte. Assurez-vous que c'est le cas!

Le problème par rapport à votre question est: si vous avez une matrice RAID - et plusieurs des disques sont les "mauvais" SSD sans cette protection - si vous obtenez une "panne de courant spontanée" - vous pourriez perdre TOUTES les données sur PLUSIEURS disques rendant la reconstruction RAID impossible.

"Mais j'utilise un UPS"

Il est également généralement important de noter que la «panne de courant spontanée» peut inclure des situations comme BSOD et les verrous / plantages / paniques du noyau - où vous n'avez pas le choix de récupérer en débranchant la fiche du système.

Brad
la source
2
Il est rare que quelqu'un tire la prise sur un système bloqué (à moins qu'il n'efface le disque) assez rapidement pour ne pas permettre aux disques de tout type de vider leur cache. Et dans ce cas, les disques durs conventionnels avec des caches activés peuvent produire le même gâchis, mais avec moins de risques de brique mais toujours avec un risque important de corruption de données - Reiserfs, début NTFS, ils avaient tendance à en tirer parce qu'ils manipulaient les données du journal être écrit pour une activité qui n'a pas réellement eu lieu (ou vice versa, les deux probablement avec un vidage du cache en panne) TRÈS mal.
rackandboneman
2
Un SSD correctement conçu ne corrompra ni ne perdra de données dans le cas où les données n'auraient pas été complètement vidées. Comme l'emplacement physique de chaque secteur logique peut changer à chaque écriture, la version précédente des données dans chaque secteur logique doit toujours exister dans le cas où la mise à jour n'a pas encore été vidée. Vous pouvez toujours perdre des données si le firmware souffre de défauts de conception ou de bogues d'implémentation.
kasperd
1
Les SSD grand public @kasperd sont vendus sur une base de vitesse, ils font des compromis pour ce faire. Bien qu'il devrait être possible de maintenir l'intégrité comme vous le suggérez, le fait est que la plupart des fabricants de disques (au moins au niveau des consommateurs) ne le font tout simplement pas. De plus, lorsqu'ils atteignent EoL, la plupart n'échouent pas gracieusement.
JamesRyan
@JamesRyan Les histoires de fabricants qui trichent avec le vidage des données sur un stockage persistant afin de mieux ressortir dans certaines mesures de performances ne sont pas nouvelles. Nous en avons entendu parler à l'époque des disques durs. Ce n'est pas parce que c'est ce que veulent les consommateurs. C'est parce que les consommateurs ne voient que certaines des mesures et ne savent pas comment le fabricant a triché dans d'autres domaines pour y parvenir. Parfois, les fabricants échappent à la triche, parfois non. (Je suis sûr que quelqu'un pourrait proposer une analogie automobile inspirée des dernières nouvelles.)
kasperd
2
Les SSD sont un animal différent. Ils ont des tables cartographiques qui indiquent OERE se trouvent les données. Ils déplacent et déplacent des données et ajustent ces cartes. Ils ont besoin de fusionner leurs écritures (c.-à-d. De reporter, de les regrouper et d'écrire plus tard) pour éviter une amplification d'écriture. Les cartes elles-mêmes ne peuvent pas être écrites de manière agressive et doivent suivre ces mêmes règles. Nous pouvons parler de "conceptions appropriées" et de défauts - mais les SSD ne sont pas "simples" comme des systèmes de fichiers journalisés (qui ne sont pas simples). Je parle de beaucoup d'expérience, de tests, de spécifications et je peux ou non avoir parlé à un fabricant - ou deux - ou trois dans mon travail.
Brad