Meilleurs choix de systèmes de fichiers pour le stockage NFS des images de disque VMware

11

Actuellement, nous utilisons un SAN iSCSI comme stockage pour plusieurs serveurs VMware ESXi. J'étudie l'utilisation d'une cible NFS sur un serveur Linux pour des machines virtuelles supplémentaires. Je suis également ouvert à l'idée d'utiliser un système d'exploitation alternatif (comme OpenSolaris) s'il fournira des avantages significatifs.

Quel système de fichiers basé sur Linux favorise les très grands fichiers contigus (comme les images de disque de VMware)? Sinon, comment les gens ont-ils trouvé ZFS sur OpenSolaris pour ce type de charge de travail?

(Cette question a été initialement posée sur SuperUser ; n'hésitez pas à migrer les réponses ici si vous savez comment).

mlambie
la source

Réponses:

13

Je vous recommande vraiment de jeter un œil à ZFS, mais pour obtenir des performances décentes, vous devrez choisir un appareil dédié en tant que journal d'intention ZFS (ZIL). Fondamentalement, il s'agit d'un petit appareil (quelques Go) qui peut écrire extrêmement rapidement (20-100K IOPS) qui permet à ZFS de confirmer immédiatement que les écritures ont été synchronisées avec le stockage, mais attendez jusqu'à 30 secondes pour valider les écritures sur les disques durs de votre piscine. En cas de panne / panne, toute transaction non validée dans le ZIL est rejouée lors du montage. En conséquence, en plus d'un onduleur, vous souhaiterez peut-être un variateur avec une alimentation / supercondensateur interne afin que toutes les E / S en attente parviennent au stockage permanent en cas de perte de puissance. Si vous optez contre un périphérique ZIL dédié, les écritures peuvent avoir une latence élevée entraînant toutes sortes de problèmes. En supposant que vous n'êtes pas intéressé par Sun '

  • DDRDrive X1 - 4 Go DDR2 + 4 Go Flash SLC dans une carte PCIe x1 conçue explicitement pour une utilisation ZIL. Les écritures vont dans la RAM; en cas de coupure de courant, il synchronise la RAM vers la NAND en <60sec alimenté par un supercondensateur. (50k-300k IOPS; 2000 $ Direct, 1500 $ pour .edu)
  • SSD Intel X25-E 32 Go 2,5 pouces (SLC, mais pas de super cap, 3300 E / S d'écriture); [390 $ @ Amazon] [11]
  • SSD OCZ Vertex 2 Pro 40 Go 2,5 pouces (supercap, mais MLC, IOPS d'écriture 20k-50k); 435 $ @ Amazon .

Une fois que vous avez configuré OpenSolaris / Nexenta + ZFS, il existe plusieurs façons de déplacer des blocs entre votre box OpenSolaris et ESX; ce qui vous convient dépend fortement de votre infrastructure existante (commutateurs L3, cartes Fibre) et de vos priorités (redondance, latence, vitesse, coût). Mais comme vous n'avez pas besoin de licences spécialisées pour déverrouiller la fonctionnalité iSCSI / FC / NFS, vous pouvez évaluer tout ce pour quoi vous avez du matériel et choisir votre favori:

  • Cibles iSCSI (surcharge du processeur; pas de prise en charge de TOE dans OpenSolaris)
  • Cibles Fibre Channel (les cartes Fibre ne sont pas bon marché)
  • NFS (VMWare + NFS peut être capricieux, limité à 32 montages)

Si vous ne pouvez pas dépenser 500 $ pour l'évaluation, testez avec et sans ZIL désactivé pour voir si le ZIL est un goulot d'étranglement. (C'est probablement le cas). Ne faites pas cela en production . Ne jouez pas encore avec la déduplication ZFS, sauf si vous avez également beaucoup de RAM et un SSD pour L2ARC. C'est vraiment agréable une fois que vous l'avez configuré, mais vous essayez certainement de faire un peu de réglage NFS avant de jouer avec dedup. Une fois que vous l'avez saturé de liaisons 1-2 Go, il existe des opportunités de croissance dans 8 Go FC, 10 GigE et infinibande, mais chacune nécessite un investissement important, même pour l'évaluation.

notpeter
la source
2

Je ne ferais pas exactement ça. D'après mon expérience, Linux (spécifiquement CentOS 3/4/5) est généralement un mauvais choix pour un serveur NFS. J'en ai eu plusieurs et j'ai constaté que sous la charge, la latence et le débit ont tendance à baisser pour des raisons que nous ne pouvions jamais tout à fait comprendre.

Dans nos cas, nous comparions les performances de Linux consécutives à Solaris (sur Ultra-SPARC) et NetApp; qui ont tous deux renvoyé des résultats en termes de performances de pommes à pommes et en termes nébuleux d '"ingénieurs ne se plaignant pas autant de latence lorsque le serveur était sous charge". Il y a eu plusieurs tentatives pour régler le serveur NFS Linux; les systèmes NetApps et Solaris ont fonctionné tels quels. Et comme les systèmes Solaris et NetApp concernés étaient plus anciens, les serveurs Linux pouvaient être considérés comme ayant tous les avantages et ne parvenaient toujours pas à convaincre.

Si vous avez le temps, ce serait une expérience intéressante de configurer le même matériel avec OpenSolaris (maintenant que Solaris est effectivement trop cher à utiliser), Linux, et peut-être une ou deux variantes BSD, et les faire courir. Si vous pouvez proposer des mesures de performances (le nombre d'E / S de disque dans une machine virtuelle hébergée hors du magasin, par exemple), cela pourrait constituer un livre blanc ou un article Internet intéressant. (Si vous avez le temps.)

Concernant NFS en général, les gens de NetApp m'ont dit à plusieurs reprises que leurs benchmarks montraient que NFS n'avait qu'un coût de 5 à 10% en performances pour les VM - et si votre application était suffisamment sensible pour que ce soit un problème, vous ne devriez pas virtualiser en premier lieu.

Mais je dois avouer qu'après tout ce temps et ces larmes, nos magasins de machines virtuelles de production non locales sont tous alimentés par iSCSI, principalement à partir de NetApp.

David Mackintosh
la source
Je pense que c'est NetApp qui a commencé avec NFS, puis a renforcé la prise en charge iSCSI plus tard, d'où leurs produits voient toujours les performances NFS dans le meilleur cas contre iSCSI dans le pire des cas ... un meilleur choix OMI.
Chris Thorpe
2

Nous utilisons OpenSolaris 2009/06 avec une configuration RAID 10 ZFS pour fournir NFS à notre serveur VMWare ESXi. Jusqu'à présent, cela fonctionne assez bien pour nos besoins. Nous utilisons des disques de type SATA Raid (disques Seagate ES.2 1 To). Nous avons cependant encore quelques réglages à faire.

tegbains
la source
2

Je suis un grand fan des banques de données NFS pour VMware, NetApp a une excellente implémentation.

TR-3808 compare la mise à l'échelle des magasins de données partagés connectés NetApp FC, iSCSI et NFS, ce qui est une excellente lecture.

chamdor
la source
-2

Vous voudrez peut-être considérer le bogue de 3 ans et plus avec ZFS ARC qui persiste encore avant de plonger trop profondément avec ZFS ...

http://bugs.opensolaris.org/bugdatabase/view_bug.do?bug_id=6522017

(Celui-ci est méchant car il sortira également des limites des limites VM d'un hyperviseur!)

user48838
la source
Vous avez copié / collé cette même "réponse" à au moins deux questions liées à Nexenta. Bien qu'il s'agisse d'un bug grave, on ne le rencontrerait que dans un ensemble de circonstances très rares. En tant que tel, vos actions semblent un peu excessives. Les avantages de l'exécution de ZFS dépassent de loin les très faibles chances que vous rencontriez ce bogue.
EEAA
D'accord, faites que 8 questions distinctes dans lesquelles vous avez collé cette même réponse.
EEAA
Ils sont liés, mais c'est votre avis. Je suis d'accord avec les avantages, mais l'impact de ce bogue en cours / en cours est significatif car il arrêtera complètement le système d'exploitation - aucun avantage alors lorsque vous ne pouvez pas accéder de manière fiable aux données stockées.
user48838
Pour les gens qui veulent vraiment évaluer cela équitablement pour l'utilité globale de ce forum / format, veuillez d'abord lire le commentaire sur ce qui suit: serverfault.com/questions/162693/…
user48838
ErikA n'identifiera PAS sa plate-forme ZFS, donc les commentaires faits par cette personne de la situation identifiée dans la question référencée se produisant dans "un ensemble de circonstances très rares" ne peuvent pas être étayés par cette personne ... Le choix d'ignorer les demandes d'identification de la sur la base de leur déclaration / position sont également sur ces commentaires.
user48838