Est-il prudent d’utiliser des disques SSD MLC grand public sur un serveur?

44

Nous (et j'entends Jeff, je veux dire) étudions la possibilité d'utiliser des disques SSD MLC grand public dans notre centre de données de sauvegarde.

Nous voulons essayer de réduire les coûts et d’augmenter l’espace utilisable - les Intel X25-E coûtent donc environ 700 $ chacun et 64 Go de capacité.

Ce que nous pensons faire, c'est acheter des disques SSD bas de gamme offrant plus de capacité à un prix inférieur. Mon patron ne pense pas que dépenser environ 5 000 $ pour des disques dans des serveurs à court de centre de données de sauvegarde en vaut la peine.

Ces lecteurs seraient utilisés dans une grappe RAID à 6 lecteurs sur un Lenovo RD120. Le contrôleur RAID est un Adaptec 8k (Lenovo renommé).

À quel point cette approche est-elle dangereuse et que peut-on faire pour atténuer ces dangers?

Zypher
la source
4
Quelle est la raison pour utiliser SSD au lieu de fileuses? La sagesse populaire sur les performances SSD est de "payer ou ne pas se soucier", mais il y a certainement d'autres aspects qui pourraient être un avantage.
peterchen
Je suis curieux du problème que vous essayez de résoudre ici. Si c'est simplement un des coûts, pourquoi les disques SSD sont-ils considérés à la place des disques conventionnels?
John Gardeniers
@peterchen, vous pouvez utiliser un couple de disques SSD ou cinquante piles de 15K.
Mircea Chirea
@iconiK - voulez-vous dire "pour un serveur, vous devez de toute façon dépenser beaucoup d'argent"? Si c'est le cas - oui, c'est pourquoi je me demandais aussi.
peterchen

Réponses:

61

Quelques réflexions;

  • Les SSD ont une mémoire «surchargée». C'est la mémoire utilisée à la place des cellules "endommagées" par l'écriture. Les disques SSD bas de gamme peuvent ne disposer que de 7% d’espace surchargé; milieu de gamme environ 28%; et les disques d'entreprise jusqu'à 400%. Considérez ce facteur.
  • Combien leur écrirez-vous par jour? Même les disques SSD de milieu de gamme, tels que ceux basés sur les 1200 puces Sandforce, n’apprécient que rarement plus de 35 Go d’écrit par jour avant de graver sérieusement dans la mémoire surchargée.
  • Habituellement, le jour 1 d'un nouveau disque SSD est plein d'écriture, qu'il s'agisse d'un système d'exploitation ou de données. Si vous avez nettement plus de 35 Go d'écritures au premier jour, envisagez de les copier par lots pour donner au SSD un «temps de rangement» entre les lots.
  • Sans la prise en charge de TRIM, les performances d'écriture aléatoire peuvent chuter de 75% en quelques semaines s'il y a beaucoup d'écriture au cours de cette période. Si vous le pouvez, utilisez un système d'exploitation prenant en charge TRIM.
  • Les processus internes de récupération de place exécutés par les disques SSD modernes sont effectués de manière très spécifique pendant les périodes creuses et s’arrêtent. Ce n'est pas un problème pour un PC de bureau où le disque peut être silencieux pendant 60% de son cycle de travail habituel de 8 heures, mais où vous exécutez un service 24h / 24 ... Quand ce processus aura-t-il une chance de fonctionner?
  • Il est généralement enfoui dans les spécifications, mais à l'instar des disques cheapo «ordinaires», les disques SSD peu coûteux ne devraient avoir un cycle de service d'environ 30%. Vous les utiliserez presque 100% du temps - cela affectera votre taux de MTBF.
  • Bien que les disques SSD ne subissent pas les mêmes problèmes mécaniques que les disques classiques, ils comportent des erreurs simples et multiples - vous devez donc sérieusement envisager de les mettre en RAID même si l'instinct ne le permet pas. Évidemment, cela aura un impact sur la vitesse d'écriture aléatoire que vous venez d'acheter, mais considérez-le quand même.
  • Il s’agit toujours de SATA et non de SAS. Votre gestion de la file d’attente ne sera donc pas aussi efficace dans un environnement de serveur. Toutefois, l’amélioration des performances sera spectaculaire.

Bonne chance - il suffit de ne pas les "frire" avec écrit :)

Chopper3
la source
2
Voulez-vous dire 400% pour l'espace supplémentaire, ou 40%? J'allais modifier votre réponse, mais je n'ai pas pu trouver de citation. Je suppose donc que cela pourrait être 400%. (C'est un très bon point, au fait)
ChrisInEdmonton
9
Il n’est pas toujours clair non plus que TRIM soit pris en charge sur une configuration RAID. N'oubliez pas que les disques SSD sont extraits du système d'exploitation avec RAID. Assurez-vous de vérifier auprès du fournisseur RAID.
Matt Sherman
5
Je voulais dire 400 Chris, en particulier ceux utilisés dans les réseaux de stockage SAN FC, très coûteux, très.
Chopper3
5
Une astuce pour obtenir plus d’espace sur un lecteur consiste à effacer en toute sécurité, puis à le partitionner avec une grande partie de son utilisation. Cet espace libre augmentera les performances et la durée de vie du SSD.
Zan Lynx
1
Je veux juste faire +1 avec @ZanLynx .. Je partitionne généralement environ 80% du disque lorsque j'utilise SSD + Raid.
Tracker1
12

J'ai trouvé ce lien, qui contient une analyse intéressante et approfondie des disques SSD MLC et SLC dans les serveurs.

À mon avis, utiliser un ensemble de disques SSD Flash MLC pour une application d'entreprise sans au moins utiliser les effets d'atténuation (revendiqués) d'une technologie telle que la technologie MFT d'Easyco revient à sauter d'un avion sans parachute.

Notez que certains fournisseurs de disques SSD MLC affirment que leurs disques sont suffisamment "professionnels" pour survivre aux écritures:

SandForce a pour objectif d'être la première société à disposer d'un contrôleur prenant en charge des puces flash cellulaires à plusieurs niveaux pour les disques SSD utilisés dans les serveurs. En utilisant des puces MLC, le SF-1500 ouvre la voie à la réduction des coûts et à la densité supérieure des disques que les fabricants de serveurs souhaitent. À ce jour, les lecteurs flash pour serveurs utilisent des puces flash à cellule unique. En effet, l'endurance et la fiabilité des puces MLC n'ont généralement pas été à la hauteur des exigences des serveurs.

Une analyse plus approfondie de ces revendications chez AnandTech .

De plus, Intel a maintenant déclaré publiquement que SLC risquait d’être excessif dans les serveurs 90% du temps :

"Nous pensions que la SLC [cellule à un seul niveau] était nécessaire, mais des études menées auprès de Microsoft et même de Seagate nous ont permis de constater que ces applications à forte intensité de calcul n'écrivaient vraiment pas autant qu'elles le pensaient", a déclaré Winslow. "Quatre-vingt-dix pour cent des applications de centre de données peuvent utiliser ce lecteur MLC [multilevel cell]."

.. au cours des dernières années, les fournisseurs ont fini par reconnaître qu’en utilisant un logiciel spécial dans les contrôleurs de disques, ils étaient en mesure d’améliorer la fiabilité et la résilience de leurs disques SSD MLC grand public au point où les entreprises les ont adoptés depuis des années. serveurs de centres de données et baies de stockage hautes performances. Les fournisseurs de disques SSD ont commencé à utiliser le terme de mémoire flash NAND eMLC (enterprise MLC) pour décrire ces disques SSD.

"Du point de vue du volume, nous constatons qu'il existe encore des environnements de calcul hautes performances et à forte intensité d'écriture qui peuvent encore nécessiter SLC, mais cela fait déjà partie des 10% des besoins en centres de données d'entreprise", a déclaré Winslow.

Intel alimente plus de 10% du marché des centres de données d’entreprise par le biais de sa coentreprise avec Hitachi Global Storage Technologies. Hitachi produit la gamme de disques SSD Serial Attached SCSI SSD400S à 6 Gbit / s. débit - deux fois supérieur à celui de ses disques SSD SATA basés sur MLC.

Même pour ses disques SSD orientés serveur, Intel a migré de SLC vers MLC avec un très grand espace de "surapprovisionnement" avec le nouveau processeur Intel SSD 710 . Ces lecteurs allouent jusqu'à 20% de l'ensemble du stockage à la redondance en interne:

Les performances ne sont pas une priorité absolue pour le SSD 710. Au lieu de cela, Intel vise à offrir une endurance de niveau SLC à un prix raisonnable en utilisant un eMLC HET NAND moins cher. Le SSD 710 prend également en charge le sur-approvisionnement configurable par l'utilisateur (20%), ce qui augmente considérablement l'endurance de l'entraînement. La garantie du SSD 710 est de 3 ans ou jusqu'à ce qu'un indicateur d'usure atteigne un certain niveau, selon la première éventualité. C'est la première fois que la garantie SSD est limitée de cette manière.

Jeff Atwood
la source
7

Basez toujours ce genre de choses sur des faits plutôt que sur des suppositions. Dans ce cas, il est facile de collecter des informations: enregistrez des profils IOPS en lecture / écriture à long terme de vos systèmes de production, puis déterminez ce que vous pouvez vivre dans un scénario de reprise après sinistre. Vous devriez utiliser quelque chose comme le 99e centile comme mesure. Ne pas utiliser de moyennes lors de la mesure de la capacité IOPS - les pics importent peu! Ensuite, vous devez acheter la capacité requise et les IOPS nécessaires pour votre site de reprise après sinistre. Les SSD peuvent être le meilleur moyen de le faire, ou peut-être pas.

Ainsi, par exemple, si vos applications de production nécessitent 7 500 IOPS au 99e centile, vous pouvez décider de vivre avec 5 000 IOPS en cas de sinistre. Mais il faut au moins 25 disques 15K requis sur votre site de reprise après sinistre. Par conséquent, les disques SSD pourraient constituer un meilleur choix si vos besoins en capacité sont faibles (cela ressemble à ce qu’ils sont). Mais si vous mesurez seulement 400 400 IOPS en production, achetez 6 disques SATA, économisez de l'argent et utilisez l'espace supplémentaire pour stocker davantage d'instantanés de sauvegarde sur le site de récupération d'urgence. Vous pouvez également séparer les lectures et les écritures de votre collection de données pour déterminer la durée de vie des disques SSD non destinés à l'entreprise pour votre charge de travail en fonction de leurs spécifications.

N'oubliez pas non plus que les systèmes de reprise après sinistre peuvent avoir une mémoire plus petite que la production, ce qui signifie qu'il faut davantage d'IOPS (davantage de permutation et moins de cache de système de fichiers).

rmalayter
la source
5

Même si le SSD MLS n'a duré qu'un an, dans un an, les remplacements seront beaucoup moins chers. Alors pouvez-vous faire face au remplacement du SSD MLS quand ils sont sortis?

Ian Ringrose
la source
C'est un bon point, d'autant plus qu'ils seront dans une matrice RAID .. tant que "trop" d'entre eux ne faillissent pas à la fois, c'est en fait plausible.
Jeff Atwood
@ Jeff, si vous pouvez échanger vos entrées et vos sorties avec vos ordinateurs de bureau, de manière à ce que tous les utilisateurs ne soient pas protégés, cela les rendra moins lécheurs, ils échoueront tous en même temps.
Ian Ringrose
@ Jeff, je pense que dans une large mesure, Fail == "commence à faire des droits très lents" plutôt que "ne lit pas les données"
Ian Ringrose le
vous n'aimez pas la correction automatique :-)
Jeroen Wiert Pluimers
3

Si nous mettons de côté le problème de quantité d'écriture (ou prouvons que les disques SSD grand public peuvent le gérer), je pense que les disques SSD sont une bonne chose à ajouter aux environnements de niveau entreprise. Vous utiliserez probablement les disques SSD dans une matrice RAID. RAID5 ou RAID6. Et le problème avec ceux-ci est qu’après une panne de disque unique, le tableau devient de plus en plus vulnérable aux pannes. Et le temps pour le reconstruire dépend fortement du volume de la matrice. Un tableau de plusieurs To peut prendre plusieurs jours à reconstruire, tout en étant constamment utilisé. Dans le cas des disques SSD, les baies RAID seront a) inévitablement plus petites b) le temps de reconstruction diminue considérablement.

Vlad
la source
3

Un livre blanc sur les différences entre SLC et MLC de SuperTalent parle de l'endurance de MLC et d'un dixième de l'endurance d'un SSD SLC, mais les chances sont que le SSD MLS survivra au matériel dans lequel vous le mettez de toute façon. Je ne suis pas sûr de la fiabilité de ces statistiques / faits de SuperTalent.

En supposant que vous obteniez un niveau d'assistance similaire de la part du fournisseur des disques SSD MLC, le prix plus bas en vaut la peine.

chunkyb2002
la source
1
Une durée de vie de 5 ans pour une utilisation de bureau typique a été mentionnée. S'il s'agit d'une estimation précise, ils ne survivront pas au serveur dans un environnement de centre de données!
JamesRyan
@ JamesRyan: Bien que cela n'apparaisse pas dans la plupart des calculs, la durée de vie est très dépendante de la fraction d'espace libre.
Ben Voigt le
1
Dans les organisations pour lesquelles je travaille, nous mettons toujours l'actualisation du matériel du serveur à 3 ans. J'avais l'impression que c'était la meilleure pratique généralement acceptée, mais corrigez-moi si je me trompe.
Chunkyb2002
3

Vous devez simplement calculer la quantité d'écritures quotidiennes que vous avez avec votre configuration actuelle et la comparer à ce que le fabricant garantit que ses disques SSD peuvent durer. Intel semble être le plus honnête à ce sujet - par exemple, jetez un coup d'œil à ses principales feuilles de données de disques SSD: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

La section 3.5 (3.5.4, en particulier) du document Spécifications indique que votre disque durera au moins 5 ans avec 20 Go d'écritures par jour. Je suppose que cela est calculé en utilisant toute la capacité du disque et en ne laissant aucun espace libre pour les écritures.

La fiche technique concernant l’utilisation des disques SSD classiques dans un environnement d’entreprise est également intéressante.

Cearny
la source
Malheureusement, ce n’est pas du tout simple, car le traitement anti-usure amplifie les écritures (rappelez-vous qu’il est conçu pour diffuser les écritures et non pour les réduire) de manière exclusive et que son efficacité peut varier énormément en fonction du modèle d’utilisation.
JamesRyan
Hm, très bon point. En outre, la perte de la commande TRIM si vous utilisez les lecteurs dans une configuration RAID devrait également augmenter l'amplification en écriture. Je suppose que tout se résume à l'idée de chaque fabricant du modèle d'utilisation typique.
Cearny
2

Il y a quelques années, j'ai déployé quelques disques SLC de 32 Go en tant que mémoire tampon pour une application affreusement mal conçue que nous utilisions.

L’application comportait 90% de petites écritures (<4 k) et fonctionnait de manière constante (24 h sur 24, 7 jours sur 7) à 14 k w / s une fois sur les disques SSD. Ils étaient configurés en RAID 1, tout était rose, la latence était basse!

Cependant, environ un mois après et le premier disque emballé, littéralement en moins de 3 heures, le second disque était également mort. RAID 1 n'est pas un si bon plan après tout :)

Je serais d'accord avec les autres affiches sur une sorte de RAID 6 si rien d'autre ne répartit ces écritures sur davantage de disques.

Maintenant, gardez à l'esprit que c'était il y a quelques années et que ces choses sont beaucoup plus fiables maintenant et que vous n'avez peut-être pas un profil I / O similaire.

L'application a été repensée. Toutefois, nous avons créé un grand disque virtuel, créé des scripts pour reconstruire / sauvegarder le disque virtuel et compenser le manque d'une heure environ de perte de données. /le temps de récupération.

Encore une fois, le cycle de vie de vos données peut être différent.

sysboy
la source