Lorsque je spécifie des serveurs, comme (je suppose) de nombreux ingénieurs qui ne sont pas des experts en stockage, je vais généralement le jouer en toute sécurité (et peut-être être un esclave du marketing) en standardisant sur un minimum de 10 000 disques SAS (et donc " entreprise "- mise à niveau avec un cycle d'utilisation 24h / 24, 7j / 7, etc.) pour les données" système "(généralement OS et parfois applications), et réserver l'utilisation de disques 7,2k mid / nearline pour le stockage de données non système où les performances ne sont pas significatives facteur. Tout cela suppose des disques de 2,5 "(SFF), car les disques de 3,5" (LFF) ne sont vraiment pertinents que pour les besoins de capacité élevée et de faibles IOP.
Dans les situations où il n'y a pas une grande quantité de données non système, je les place généralement sur les mêmes disques / baies que les données système, ce qui signifie que le serveur ne dispose que de 10 000 disques SAS (généralement de type «One Big RAID10») de configuration ces jours-ci). Ce n'est que si la taille des données non-système est importante que j'envisage généralement de les placer sur une matrice distincte de 7,2 k disques mid / nearline pour réduire le coût / Go.
Cela m'amène à me demander: dans certaines situations, ces disques 10k de la matrice RAID10 auraient-ils pu être remplacés par des disques 7,2k sans conséquence négative significative? En d'autres termes, est-ce que je sur-spécifie parfois (et que les fournisseurs de matériel soient satisfaits) en respectant un minimum de 10 000 disques de qualité «entreprise», ou y a-t-il une bonne raison de toujours s'en tenir au minimum?
Par exemple, prenez un serveur qui agit comme un hyperviseur avec quelques machines virtuelles pour une petite entreprise typique (disons 50 utilisateurs). La société a des modèles d'E / S moyens sans exigences particulières. Bureau typique 9-5, du lundi au vendredi, avec des sauvegardes exécutées pendant quelques heures par nuit. Les machines virtuelles pourraient peut-être être un contrôleur de domaine et un serveur de fichiers / d'impression / d'application. Le serveur dispose d'une matrice RAID10 avec 6 disques pour stocker toutes les données (données système et non système). À mon avis, il semble que les disques mid / nearline puissent très bien fonctionner. Prenons l'exemple des disques HP:
- Charge de travail: les disques intermédiaires sont conçus pour une charge de travail <40%. Le bureau n'étant ouvert que 9 heures par jour et les E / S moyennes pendant cette période ne pouvant être proches du maximum, il semble peu probable que la charge de travail dépasse 40%. Même avec quelques heures d'E / S intenses la nuit pour les sauvegardes, je suppose que ce serait toujours en dessous de 40%
- Vitesse: bien que les disques ne soient que 7,2k, les performances sont améliorées en les répartissant sur six disques
Donc, ma question: est-il judicieux de coller un minimum de 10 000 disques SAS, ou les disques de 7,2 k midline / nearline sont-ils réellement plus que suffisants dans de nombreuses situations? Si oui, comment puis-je évaluer où se trouve la ligne et éviter d'être l'esclave de l'ignorance en jouant la sécurité?
Mon expérience est principalement avec les serveurs HP, donc ce qui précède peut avoir un peu une inclinaison HP, mais je suppose que les principes sont assez indépendants du fournisseur.
Réponses:
Il y a ici une intersection intéressante entre la conception des serveurs, la technologie des disques et l'économie:
Voir aussi: Pourquoi les disques LFF (Large Form Factor) sont-ils encore assez répandus?
Ce qui précède explique pourquoi vous trouvez généralement des fabricants axés sur les serveurs 1U / 2U avec 8-24 baies d'unité de disque de 2,5 ".
Les disques de 3,5 pouces sont destinés aux cas d'utilisation de grande capacité à faible IOP (2 To +). Ils sont idéaux pour les boîtiers de stockage externes ou le stockage SAN avec une certaine forme de mise en cache. Dans les vitesses d'entreprise de 15 000 tr / min, ils ne sont disponibles que jusqu'à 600 Go.
Les disques rotatifs de 2,5 "à 10 000 tr / min sont destinés à des besoins d'IOPS plus élevés et sont généralement disponibles jusqu'à 1,8 To de capacité.
Les disques rotatifs de 2,5 pouces à 7,2k tr / min sont un mauvais choix car ils n'offrent ni capacité, ni performances, ni longévité, ni avantages de prix. différence, le disque de 900 Go est le meilleur achat. Dans l'exemple de 1,8 To 10k SAS contre 2,0 To 7,2k SAS , les prix sont également très proches. Les garanties sont de 3 ans et 1 an, respectivement.
Par conséquent, pour les serveurs et le stockage interne de 2,5 pouces, utilisez un SSD ou 10 ko. Si vous avez besoin de capacités et que des baies de lecteur de 3,5 pouces sont disponibles en interne ou en externe, utilisez 7,2 k tr / min.
Pour les cas d'utilisation que vous avez décrits, vous ne configurez pas trop les serveurs. S'ils ont des baies de disques de 2,5 pouces, vous ne devriez vraiment utiliser que des disques SAS ou SSD 10 000. Les disques intermédiaires sont une perte de performances, de capacité, ont une garantie considérablement plus courte et n'économiseront pas beaucoup sur les coûts.
la source
Il y a au moins quelques éléments qui pourraient causer des problèmes avec CERTAINS types de lecteurs:
Lecteurs qui ne sont pas destinés à gérer la charge vibratoire d'un châssis comportant de nombreux lecteurs (problème peu probable avec tout lecteur spécifié comme compatible RAID / NAS)
Firmware qui n'autorise pas TLER ou nécessite une reconfiguration manuelle longue du lecteur pour l'activer (idem)
Les disques qui n'ont jamais été testés avec le contrôleur RAID utilisé et qui peuvent avoir des bogues non reconnus qui apparaissent dans une telle configuration
Les caches d'écriture du lecteur interne qui se comportent d'une manière (l'écriture physique est en panne ou très retardée) qui provoquent beaucoup de confusion en cas d'arrêt brutal (le contrôleur RAID doit être configuré pour forcer ces désactivations. Problème potentiel si le micrologiciel doit jamais ignorer Voir les disques non testés :)
Le lecteur peut occasionnellement effectuer des routines de maintenance internes qui peuvent faire en sorte que le lecteur se comporte lentement, ou réagisse avec suffisamment de retard, pour faire croire au contrôleur RAID qu'il a échoué (lié à TLER)
SATA en général, comme il est généralement implémenté, offre moins de protections par rapport à SAS contre un lecteur avec une électronique complètement tirée ou suspendue suspendant tout sur le contrôleur (pas un risque théorique, certaines combinaisons de marques disque + contrôleur adorent ce mode de défaillance).
la source
ÉNORME problème:
(Peut être un tout petit peu hors sujet - mais c'est important! )
Lorsque vous traitez avec des SSD - (comme c'est souvent le cas, ou peut être soit le cas, soit la tentation) - un beaucoup de SSD ont un problème désagréable où ils ne peuvent pas toujours se remettre de pannes de courant spontanées!
C'est un petit problème avec les disques durs. Les disques durs ont généralement une capacité suffisante pour alimenter leur logique et une quantité de mouvement angulaire suffisante pour mener les plateaux à la fin de l'écriture d'un bloc de 512 octets - en cas de perte d'alimentation en cours d'écriture. Une fois dans un rare moment, ce ne sera pas le travail, entraînant ce qu'on appelle une « écriture déchirée » - où un seul bloc peut être partiellement écrit. L'écriture partielle (albiet rare) entraînera un échec de somme de contrôle sur le bloc - c'est-à-dire que le bloc individuel sera mauvais. Cela peut généralement être détecté comme mauvais par les circuits du disque lui-même et corrigé par le contrôleur RAID en amont.
Les SSD sont un animal différent. Les implémentent généralement quelque chose appelé "nivellement d'usure" - où ils n'écrivent pas simplement "bloc X" à un emplacement physique pour "bloc X" comme le fait un disque dur. Au lieu de cela, ils essaient d'écrire à différents endroits sur le support flash - et ils essaient d'agréger ou de combiner les écritures (en utilisant un peu de tampon). Écrire aux différents endroits implique de garder une "carte" de l'endroit où les choses sont écrites, qui est également tamponnée et écrite de manière à réduire le nivellement de l'usure. Une partie du nivellement de l'usure peut même impliquer le déplacement de données qui sont déjà sur l'appareil et qui n'ont même pas été écrites récemment.
Ce problème est que lorsque le SSD perd de la puissance - il a beaucoup de données en mémoire (non vidées), il a des données qui ont été écrites vers des emplacements différents / modifiés - et il a ces cartes dans sa propre mémoire qui doivent être débusqué pour donner un sens à la structure de toutes les données sur l'appareil.
BEAUCOUP DE SSD n'ont pas la logique ou les circuits pour pouvoir garder leurs contrôleurs en place et en vie assez longtemps lors d'une mise hors tension spontanée pour vider en toute sécurité toutes ces données pour qu'elles clignotent avant de mourir. Cela ne signifie pas seulement qu'un bloc que vous avez écrit pourrait maintenant être en jeprody - mais d'autres blocs - même tous les blocs sur l'appareil pourraient être en difficulté. De nombreux appareils ont également des problèmes où non seulement ils perdent toutes les données sur l'appareil, mais l'appareil lui-même devient maillé et inutilisable.
Tout cela est une vraie théorie - mais (travaillant dans l'industrie du stockage) - j'ai / nous avons vu cela se produire trop de fois sur beaucoup trop d'appareils - y compris dans certains de nos ordinateurs portables personnels!
De nombreux fournisseurs ont discuté de la possibilité de créer des "SSD de qualité entreprise" dans lesquels des périphériques ("super-caps") et d'autres circuits sont spécifiquement ajoutés pour permettre un "flush" propre - mais il est très difficile de trouver un périphérique qui indique spécifiquement qu'il fait partie de son fiche technique qu'il dispose d'une protection suffisante, explicite et testée contre de tels événements et protégera contre de tels événements.
De toute évidence, si vous achetez une «baie de stockage haut de gamme» auprès d'un fournisseur de premier plan qui a utilisé la technologie flash, soit leurs disques - soit leur système dans son ensemble a été conçu avec tout cela en compte. Assurez-vous que c'est le cas!
Le problème par rapport à votre question est: si vous avez une matrice RAID - et plusieurs des disques sont les "mauvais" SSD sans cette protection - si vous obtenez une "panne de courant spontanée" - vous pourriez perdre TOUTES les données sur PLUSIEURS disques rendant la reconstruction RAID impossible.
Il est également généralement important de noter que la «panne de courant spontanée» peut inclure des situations comme BSOD et les verrous / plantages / paniques du noyau - où vous n'avez pas le choix de récupérer en débranchant la fiche du système.
la source