Le problème
Nous avons un problème avec les performances sur une plate-forme existante, donc je me tourne vers l'esprit de la ruche pour un deuxième avis à ce sujet. Le problème de performances jusqu'à présent concerne l'IOPS plutôt que le débit.
Le scénario
Un centre lame de 16 hôtes, chacun avec 64 Go de RAM. (C'est un Dell M1000e avec M610, mais ce n'est probablement pas pertinent) 500 machines virtuelles, tous les serveurs Web (ou les technologies Web associées telles que MySQL, les équilibreurs de charge, etc.), environ 90% sont Linux et le reste de Windows. L'hyperviseur est VMWare vSphere. Nous devons fournir l'hôte HA, donc le stockage local est hors service. En tant que tels, les hôtes n'ont qu'une carte SD pour démarrer.
Un peu de réflexion
À l'heure actuelle, nous comptons jusqu'à 6 hôtes (le centre lame sera à pleine capacité dans un an à la croissance actuelle) et nous exécutons iSCSI sur un Dell MD3220i w / MD1220 pour l'expansion.
Options possibles que nous avons envisagées et réflexions immédiates avec elles:
- Répartir les machines virtuelles dans les banques de données NFS et exécuter un stockage NFS qui répond aux exigences de performances pour un nombre donné de machines virtuelles. NFS semble moins cher à l'échelle, et a été un peu plus abstrait que le stockage au niveau du bloc afin que nous puissions le déplacer selon les besoins.
- Ajout de contrôleurs / cibles MD3220i supplémentaires. Nous craignons cependant que cela puisse avoir un effet négatif sur la façon dont VMWare gère de nombreuses cibles.
- Échange de tous les disques de Nearline SAS vers SSD. Cela devrait résoudre entièrement le problème des IOPS, mais a pour effet secondaire évident de réduire notre capacité de stockage. De plus, c'est toujours très cher.
- vSphere 5 dispose d'un dispositif de stockage. Nous n'avons pas fait beaucoup de recherches, mais cela doit bien fonctionner?
La question
Quel type de stockage feriez-vous sous tout cela? Il n'aurait pas besoin d'évoluer vers un autre centre de serveurs lame, il devrait simplement fournir des performances relativement bonnes pour toutes ces machines virtuelles.
Je ne cherche pas de réponses "Acheter SAN x parce que c'est la meilleure". Je recherche des réflexions sur les différentes technologies SAN (iSCSI, FC, FCoE, InfiniBand, NFS, etc.), les différents types de stockage (SATA, SAS, SSD) et les méthodologies de gestion du stockage pour 100s de VMs (Consolidation, Séparation , Sharding, etc.).
Absolument toutes les pensées, liens, guides, pointeurs, etc. sont les bienvenus à ce sujet. J'aimerais également entendre des réflexions sur les options ci-dessus que nous avons déjà envisagées.
Merci d'avance pour toute contribution!
Mise à jour du 5 mars '12
Des réponses fantastiques jusqu'à présent, merci beaucoup à tous!
En partant des réponses à cette question jusqu'à présent, je commence à penser que l'itinéraire suivant est le chemin:
- Étendez le stockage disponible au cluster VMWare et placez les disques VM sur un stockage adapté à leurs charges de travail.
- Utilisez potentiellement un SAN capable de gérer automatiquement le placement des données sur un stockage approprié.
- Infiniband semble être le plus rentable pour obtenir la bande passante requise avec les hôtes à pleine capacité.
Il semble que cela vaudrait la peine de faire appel aux services de prévente d'un grand fournisseur de SAN pour se faire une idée du scénario.
Je vais continuer à considérer ce problème pendant un certain temps. En attendant, plus de conseils reçus avec gratitude!
la source
Réponses:
La clé d'une bonne plate-forme de stockage VMWare est de comprendre quel type de charge VMWare génère.
La meilleure façon d'aborder la création de stockage pour une plate-forme VMWare est de commencer par les fondamentaux.
la source
Mes gros déploiements VMWare sont NFS et iSCSI sur 10 GbE. Cela signifie des HBA 10 GbE à double port dans les serveurs, ainsi que la tête de stockage. Je suis un fan du stockage basé sur ZFS pour cela. Dans mon cas, il s'agit d'un NexentaStor commercial , mais certains choisissent de rouler le leur.
Les principales fonctionnalités du stockage basé sur ZFS dans ce contexte seraient la fonctionnalité de mise en cache ARC / L2ARC, vous permettant de hiérarchiser le stockage. Les données les plus actives trouveraient leur chemin dans le stockage RAM et SSD en tant que deuxième niveau. L'exécution de votre pool de stockage principal à partir de disques SAS 10 000 ou 15 000 serait également bénéfique.
Il s'agit d'un autre cas de profilage et de compréhension de votre charge de travail. Travaillez avec quelqu'un qui peut analyser vos modèles de stockage et vous aider à planifier. Côté ZFS / NexentaStor, j'aime PogoStorage . Sans ce type d'informations, la méthode de transport (FC, FCoE, iSCSI, NFS) peut ne pas avoir d'importance. Avez-vous une surveillance de votre infrastructure existante? À quoi ressemble l'activité d'E / S maintenant?
la source
La question clé est: "où est le goulot d'étranglement?" Vous mentionnez les IOPS, mais cela signifie-t-il que vous avez identifié positivement les disques eux-mêmes comme étant le goulot d'étranglement, ou simplement que les ports SAN ne fonctionnent pas à pleine capacité, ou que les VM sont bien plus attendues que vous ne le souhaiteriez?
Si vous avez définitivement identifié que les disques sont le facteur limitant, alors passer à NFS ou à l'infinibande ou tout ce qui ne fera pas le squat pour vos performances - vous avez besoin de SSD (ou au moins d'un stockage hiérarchisé avec SSD dans le mélange) ou un ensemble entier de broches (une solution qui est devenue beaucoup plus chère récemment depuis que la production mondiale de moteurs pas à pas a été rejetée dans l'océan).
Si vous n'êtes pas sûr à 100% où se trouve le goulot d'étranglement, vous devez d'abord le trouver - échanger des parties de votre infrastructure de stockage plus ou moins au hasard en fonction des suppositions des autres ici ne va pas être très efficace (surtout compte tenu du coût des modifications à mettre en œuvre).
la source
esxtop
tous les hôtes (montrant l'utilisation du disque), en prenant le total de CMD / s et en le comparant aux références sur le SAN que nous utilisons. Le CMD / s total est constamment élevé lorsque l'on prend les résultats de référence comme titre. Les SSD semblent définitivement être une bonne option du point de vue technique, ils sont tout simplement horriblement chers encore en Go / £. Cela pourrait être une solution avec un stockage à plusieurs niveaux. Sur une note / FYI, selon un récent communiqué de presse, j'ai reçu WD sont de retour aux niveaux de production sur les disques.Si vous voulez iscsi ou nfs, vous voudrez au minimum quelques ports 10 / 40gb ou infiniband qui est de loin l'option la moins chère, mais les solutions de stockage natives pour infiniband semblent limitées. Le problème sera le module pour le bladecenter quelles sont ses options, généralement 8 Go fc ou 10 \ 1 gbe et peut-être infinibande. Notez que l'infiniband peut être utilisé avec nfs et rien ne lui est fermé en termes de performances \ prix. si le centre de la lame prend en charge qdr infiniband, je le ferais avec un hôte linux d'une sorte avec un qdr infiniband tca via nfs. Voici un bon lien décrivant ce http://www.zfsbuild.com/2010/04/15/why-we-chose-infiniband-instead-of-10gige
mais si le bladecenter peut prendre en charge l'infinibande qdr et que vous pouvez vous permettre une infinibande native, c'est la solution que vous devez choisir.
Actuellement, vous pouvez obtenir des commutateurs de 40 Go beaucoup moins chers (c'est une pensée étrange) que des commutateurs de 10 Go, mais je doute que votre centre de lame supporte cela.
la source
Le stockage local est épuisé? Je suis assez satisfait du débit d'écriture sur mes RAID 5 locaux - mis en miroir avec DRBD8 sur le partenaire de cluster de ma machine XEN ... (mais ce n'est "pas pris en charge", bien sûr).
En dehors de cela, je suis sûr que mySQL est votre problème de performances (je n'ai jamais vu de pire base de données). Essayez de le régler et / ou essayez de mettre la base de données entière dans le cache du système de fichiers (pour un accès en lecture) ...
la source