Qui de vous dans ce forum utilise "> R avec le multicœur , les packages snow ou CUDA , donc pour des calculs avancés qui nécessitent plus de puissance qu'un processeur de station de travail? Sur quel matériel calculez-vous ces scripts? À la maison / au travail ou avez-vous accès au centre de données quelque part?
Le contexte de ces questions est le suivant: j'écris actuellement mon M.Sc. thèse sur R et le calcul haute performance et j'ai besoin d'une bonne connaissance de qui utilise réellement R. J'ai lu que R avait 1 million d'utilisateurs en 2008, mais c'est plus ou moins la seule statistique utilisateur que j'ai pu trouver sur ce sujet - alors j'espère pour votre réponses!
Cordialement Heinrich
Réponses:
Je suis un biologiste qui modélise les effets des variations climatiques interannuelles sur la dynamique des populations de plusieurs espèces migratrices. Mes ensembles de données sont très volumineux (données spatialement intensives), donc j'exécute mon code R à l'aide
multicore
de serveurs Amazon EC2. Si ma tâche est particulièrement gourmande en ressources, je choisirai une instance High Memory Quadruple Extra Large qui comprend 26 unités centrales, 8 cœurs et 68 Go de RAM. Dans ce cas, j'exécute généralement 4-6 scripts simultanément, chacun travaillant à travers un ensemble de données assez volumineux. Pour les petites tâches, je choisis des serveurs avec 4-6 cœurs et environ 20 Go de RAM.Je lance ces instances (généralement des instances ponctuelles car elles sont moins chères mais peuvent se terminer à tout moment si le taux actuel dépasse ce que j'ai choisi de payer), exécuter le script pendant plusieurs heures, puis terminer l'instance une fois mon script terminé. En ce qui concerne l'image de la machine (Amazon Machine Image), j'ai pris quelqu'un d'autre pour installer Ubuntu, mis à jour R, installé mes packages et enregistré cela en tant qu'AMI privée sur mon espace de stockage S3.
Ma machine personnelle est un macbook pro dualcore et elle a du mal à passer des appels multicœurs. N'hésitez pas à envoyer un courriel si vous avez d'autres questions.
la source
Depuis que vous demandez, j'utilise le package foreach avec le backend multicœur . Je l'utilise pour répartir une charge de travail parallèle embarrassante sur plusieurs cœurs sur une seule boîte Nehalem avec beaucoup de RAM. Cela fonctionne assez bien pour la tâche à accomplir.
la source
Je travaille dans l'académie et j'utilise le multicœur pour certains repères lourds d'algorithmes d'apprentissage automatique, principalement sur notre constellation Sun basée sur Opteron et certains clusters plus petits; il s'agit également de problèmes parallèles assez embarrassants, de sorte que le rôle principal du multicœur est de répartir le calcul sur le nœud sans multiplier l'utilisation de la mémoire.
la source
J'utilise la neige et les chutes de neige pour la parallélisation des cours sur les clusters HPC et CUDA pour le traitement parallèle des données fines. Je suis en épidémiologie et je fais de la modélisation de la transmission de maladies. J'utilise donc les deux.
la source