Comme il existe de nombreux outils disponibles pour les tâches de science des données, il est lourd d'installer tout et de créer un système parfait.
Existe-t-il une image Linux / Mac OS avec Python, R et d'autres outils open source de science des données installés et disponibles pour une utilisation immédiate? Un Ubuntu ou un système d'exploitation léger avec la dernière version de Python, R (y compris les IDE) et d'autres outils de visualisation de données open source installés seront idéaux. Je n'en ai pas rencontré dans ma recherche rapide sur Google.
Veuillez me faire savoir s'il y en a ou si quelqu'un d'entre vous en a créé un pour vous? Je suppose que certaines universités peuvent avoir leurs propres images VM. Veuillez partager ces liens.
Réponses:
Il existe un autre choix qui a récemment fait le succès: docker ( https://www.docker.com ). Docker est un conteneur et vous permet de créer / maintenir un environnement de travail très facilement et rapidement.
J'espère que cela vous aiderait.
la source
Si vous recherchez une machine virtuelle avec un tas d'outils préinstallés, essayez la Data Science Toolbox .
la source
docker-machine regenerate-certs
que j'espère que cela aide :)Bien que les images Docker soient désormais plus à la mode, je trouve personnellement que la technologie Docker n'est pas conviviale, même pour les utilisateurs avancés. Si vous êtes d'accord avec l'utilisation d' images de VM non locales et pouvez utiliser Amazon Web Services (AWS) EC2 , envisagez des images axées sur R pour les projets de science des données, préconfigurées par Louis Aslett. Les images contiennent des versions très récentes, sinon les plus récentes, d' Ubuntu LTS , R et RStudio Server . Vous pouvez y accéder ici .
Outre les principaux composants que j'ai énumérés ci-dessus, les images contiennent également de nombreux outils utiles de science des données. Par exemple, les images prennent en charge LaTeX, ODBC, OpenGL, Git, des bibliothèques numériques optimisées et plus encore.
la source
Avez-vous essayé la VM QuickStart de Cloudera ?:
Je l'ai trouvé très facile à exécuter et il comprend des logiciels open source tels que Mahout et Spark .
la source
Aujourd'hui, j'ai utilisé ce référentiel depuis https://github.com/sequenceiq/docker-spark et je l'ai construit avec docker. c'est une étincelle de construction d'image docker basée sur l'image hadoop du même propriétaire. si vous utilisez spark, il a une API python appelée pyspark http://spark.apache.org/docs/latest/api/python/
la source