Je travaille à la mise en place d'un ensemble de machines virtuelles pour expérimenter avec Spark avant de dépenser et de dépenser de l'argent pour construire un cluster avec du matériel. Note rapide: je suis un universitaire avec une formation en apprentissage automatique appliqué et je travaille un peu en science des données J'utilise les outils informatiques, rarement j'aurais besoin de les configurer.
J'ai créé 3 machines virtuelles (1 maître, 2 esclaves) et installé Spark avec succès. Tout semble fonctionner comme il se doit. Mon problème réside dans la création d'un serveur Jupyter auquel on peut se connecter à partir d'un navigateur qui ne fonctionne pas sur une machine du cluster.
J'ai installé le bloc-notes Jupyter avec succès ... et il fonctionne. J'ai ajouté un nouveau profil IPython se connectant à un serveur distant avec Spark.
maintenant le problème
La commande
$ ipython --profile=pyspark
fonctionne bien et il se connecte au cluster d'étincelles. cependant,
$ ipython notebook --profile=pyspark
[<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect.
par défaut, le default
profil n'est pas le pyspark
profil.
Ma config notebook pour pyspark
a:
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8880
c.NotebookApp.server_extensions.append('ipyparallel.nbextension')
c.NotebookApp.password = u'some password is here'
$ ipython --profile=pyspark notebook
? Il se peut que le problème ne soit lié qu'à l'ordre des arguments.Réponses:
IPython est maintenant passé à la version 4.0 , ce qui signifie que si vous l'utilisez, il lira sa configuration
~/.jupyter
, non~/.ipython
. Vous devez créer un nouveau fichier de configuration avecpuis modifiez le
~/.jupyter/jupyter_notebook_config.py
fichier résultant selon vos besoins.Plus d'instructions d'installation ici .
la source
Supposons que votre fichier de configuration soit ~ / .ipython / profile_pyspark / ipython_notebook_config.py, vous pouvez toujours utiliser ce fichier de configuration en:
ou
la source
Le problème est que pyspark n'est pas sur le chemin sys os par défaut. Après plusieurs tentatives infructueuses pour l'ajouter manuellement à mes fichiers de configuration / chemins / etc, je suis tombé sur ce référentiel GitHub appelé findspark.
https://github.com/minrk/findspark
J'ai cloné ce référentiel en utilisant le clone git https://github.com/minrk/findspark.git
Ensuite, j'ai exécuté "pip install FindSpark" à partir de la racine TrouvePark.
Démarrage d'un bloc-notes Jupyter, création d'un nouveau bloc-notes Python3 et ajout
importer findpark
importer os
findpark.init ()
importer pyspark
sc = pyspark.SparkContext ()
Avant findpark.init (), import pyspark est revenu avec une erreur.
Pour tester, je viens de taper sc et je suis revenu:
pyspark.context.SparkContext à 0x4526d30
Tous travaillent pour moi maintenant.
la source