j'ai maintenant 10 serveurs pour hpc, orientés power computing. Mes utilisateurs doivent lancer plusieurs processus à l'aide de qmake. Les utilisateurs sont habitués à travailler avec Ubuntu 9.10, et le logiciel des référentiels est commutable pour eux.
J'ai déployé Ubuntu 9.10 sur les 10 serveurs (pxe rocks).
Nous travaillons maintenant avec parallel-ssh et cluster-ssh, ce qui permet de lancer le même processus sur tous les serveurs. Avec ces outils ces outils les serveurs restent aussi indépendants mais avec le même logiciel et la même commande lancée.
Maintenant, nous aimerions passer à l'étape suivante et voir tous les serveurs comme un seul avec toutes les ressources des 9 autres comme si c'était ses ressources.
La différence serait considérable en temps de traitement et en temps de conception de la commande à lancer.
Un conseil sur quel logiciel utiliser sera très utile?
Merci
la source
Réponses:
Ce dont vous parlez s'appelle une image système unique (SSI) . La variante la plus courante de ce schéma pour Linux est implémentée par MOSIX . Bien qu'il offre certains avantages en termes de gestion du système, en général, les processus ne peuvent pas s'étendre sur plusieurs nœuds sans utiliser une certaine forme de MPI . Fondamentalement, que vous utilisiez ou non un cluster "standard" fonctionnant sur gridengine ou que vous formiez vos systèmes dans une seule image, vous devrez toujours modifier tous les logiciels pour pouvoir couvrir plusieurs nœuds.
la source
Un cluster n'est pas une machine unique en termes de performances, la localité fs / mémoire est importante pour les performances.
Faire des choses au niveau de l'application, bien que moins général, est plus efficace en termes de ressources. Votre exemple qmake peut être accéléré de manière significative en configurant distcc.
la source
à la fin, j'ai utilisé Sun Grid Engine.
J'ai documenté dans un wiki privé, et copié et collé sur mon blog. Je pense que cela peut être utile même sans traduction. ;)
Entrée de blog: http://suportrecerca.barcelonamedia.org/blog/?p=240
Si quelqu'un veut le code wiki, demandez-le ici.
Merci.
la source
Je n'en ai jamais implémenté auparavant, mais il semble qu'un cluster beowulf fonctionnerait pour ce que vous essayez de faire. J'ai fait beaucoup de lecture à ce sujet dans le passé et pour certains processus plus simples, il peut y avoir peu de recodage nécessaire en fonction de ce que vous essayez de réaliser.
la source