Image VM pour les projets de science des données

24

Comme il existe de nombreux outils disponibles pour les tâches de science des données, il est lourd d'installer tout et de créer un système parfait.

Existe-t-il une image Linux / Mac OS avec Python, R et d'autres outils open source de science des données installés et disponibles pour une utilisation immédiate? Un Ubuntu ou un système d'exploitation léger avec la dernière version de Python, R (y compris les IDE) et d'autres outils de visualisation de données open source installés seront idéaux. Je n'en ai pas rencontré dans ma recherche rapide sur Google.

Veuillez me faire savoir s'il y en a ou si quelqu'un d'entre vous en a créé un pour vous? Je suppose que certaines universités peuvent avoir leurs propres images VM. Veuillez partager ces liens.

python r tools JeanVuda
la source

Bien que cette question puisse être considérée comme hors sujet limite, je la trouve en quelque sorte bonne pour le site à mon humble avis.

Sean Owen

3

En plus des commentaires impressionnants, il y a un article de blog (un peu plus ancien) comparant plusieurs solutions différentes: jeroenjanssens.com/2013/12/07/…

LauriK

13

Il existe un autre choix qui a récemment fait le succès: docker ( https://www.docker.com ). Docker est un conteneur et vous permet de créer / maintenir un environnement de travail très facilement et rapidement.

installer des outils essentiels pour la science des données en python
- https://registry.hub.docker.com/u/ceshine/python-datascience/
utiliser le langage r pour faire de la science des données
- https://github.com/rocker-org/rocker

J'espère que cela vous aiderait.

fansia
la source

12

Si vous recherchez une machine virtuelle avec un tas d'outils préinstallés, essayez la Data Science Toolbox .

Sean Owen
la source

Projet intéressant (+1). Merci pour le partage! Il pourrait être plus facile de l'utiliser que de comprendre pourquoi Docker ne voulait pas travailler sur mon ordinateur portable Win 7 (voir ci-dessus). Cependant, ce pourrait être une bonne idée d'apprendre Docker, compte tenu des tendances récentes.

Aleksandr Blekh du

Belle information. Par rapport aux outils vm, il a besoin d'un certain temps pour comprendre comment fonctionne Docker. Si vous connaissez déjà vm, c'est une bonne idée d'utiliser cette boîte à outils. Merci pour le partage.

fansia

Merci pour le partage. C'est vraiment intéressant. Mais je ne vois pas comment quelqu'un peut l'utiliser sans interface graphique. J'aurais besoin de R-studio et de PyCharm pour Python (le bloc-notes iPython est là). J'aurai besoin de jouer avec un peu pour le comprendre complètement.

JeanVuda

1

@AleksandrBlekh J'ai enfin réussi à faire fonctionner Docker sur ma machine Windows 7 en régénérant les certificats docker-machine regenerate-certsque j'espère que cela aide :)

RK

@RK: Merci de m'avoir prévenu. Je vais essayer quand j'aurai une chance (cela peut prendre un certain temps, car il y a des questions de priorité plus élevée qui attendent d'être réglées).

Aleksandr Blekh

8

Bien que les images Docker soient désormais plus à la mode, je trouve personnellement que la technologie Docker n'est pas conviviale, même pour les utilisateurs avancés. Si vous êtes d'accord avec l'utilisation d' images de VM non locales et pouvez utiliser Amazon Web Services (AWS) EC2 , envisagez des images axées sur R pour les projets de science des données, préconfigurées par Louis Aslett. Les images contiennent des versions très récentes, sinon les plus récentes, d' Ubuntu LTS , R et RStudio Server . Vous pouvez y accéder ici .

Outre les principaux composants que j'ai énumérés ci-dessus, les images contiennent également de nombreux outils utiles de science des données. Par exemple, les images prennent en charge LaTeX, ODBC, OpenGL, Git, des bibliothèques numériques optimisées et plus encore.

Aleksandr Blekh
la source

Merci beaucoup d'avoir mentionné cette option. Je vais certainement essayer. Cependant, je veux une image qui a exactement comme cette AMI, mais qui peut être exécutée avec VirtualBox sur mon ordinateur portable.

JeanVuda

J'ai récemment regardé un didacticiel sur Docker, l'ai testé et l'ai trouvé facile à comprendre. Quelle partie avez-vous trouvée non conviviale?

Robert Smith

@JeanVids: Vous êtes les bienvenus. Je comprends votre désir d'avoir une machine virtuelle locale - c'est la raison pour laquelle j'ai essayé Docker sur mon ordinateur. Je vous ferai savoir si je trouve une image VM VirtualBox axée sur la science des données (espérons-le, basée sur R).

Aleksandr Blekh

1

@RobertSmith: Je comprends. Peut-être que le problème était que j'essayais de le configurer sur ma machine Windows. Quoi qu'il en soit, je vais essayer un peu plus tard. Merci pour vos commentaires.

Aleksandr Blekh

1

@AleksandrBlekh Oui, cela pourrait être le principal problème. Malheureusement, il y a beaucoup de problèmes lors de l'installation de ce genre de chose sur Windows.

Robert Smith

5

Avez-vous essayé la VM QuickStart de Cloudera ?:

http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html

Je l'ai trouvé très facile à exécuter et il comprend des logiciels open source tels que Mahout et Spark .

Emre Sevinç
la source

5

Aujourd'hui, j'ai utilisé ce référentiel depuis https://github.com/sequenceiq/docker-spark et je l'ai construit avec docker. c'est une étincelle de construction d'image docker basée sur l'image hadoop du même propriétaire. si vous utilisez spark, il a une API python appelée pyspark http://spark.apache.org/docs/latest/api/python/

Evren Kutar
la source

Image VM pour les projets de science des données

Réponses: