J'ai trouvé que la solution la plus simple sur Windows est de construire à partir de la source.
Vous pouvez suivre à peu près ce guide: http://spark.apache.org/docs/latest/building-spark.html
Téléchargez et installez Maven et définissez-le MAVEN_OPTS
sur la valeur spécifiée dans le guide.
Mais si vous ne faites que jouer avec Spark et que vous n'en avez pas réellement besoin pour fonctionner sur Windows pour toute autre raison que votre propre machine exécute Windows, je vous suggère fortement d'installer Spark sur une machine virtuelle Linux. Le moyen le plus simple de commencer est probablement de télécharger les images prêtes à l'emploi créées par Cloudera ou Hortonworks, et d'utiliser la version fournie de Spark, ou d'installer la vôtre à partir des sources ou des binaires compilés que vous pouvez obtenir sur le site Web de Spark.
Étapes pour installer Spark en mode local:
Installez Java 7 ou une version ultérieure . Pour tester l'installation de Java est terminée, ouvrez le type d'invite de commande
java
et appuyez sur Entrée. Si vous recevez un message,'Java' is not recognized as an internal or external command.
vous devez configurer vos variables d'environnementJAVA_HOME
etPATH
pointer vers le chemin de jdk.Téléchargez et installez Scala .
Définissez
SCALA_HOME
dansControl Panel\System and Security\System
goto "Paramètres système avancés" et ajoutez la%SCALA_HOME%\bin
variable PATH dans les variables d'environnement.Installez Python 2.6 ou version ultérieure à partir du lien de téléchargement Python .
Téléchargez SBT . Installez-le et définissez-le
SBT_HOME
comme variable d'environnement avec la valeur<<SBT PATH>>
.Téléchargement à
winutils.exe
partir du repo HortonWorks ou du repo git . Comme nous n'avons pas d'installation Hadoop locale sur Windows, nous devons le téléchargerwinutils.exe
et le placer dans unbin
répertoire sous unHadoop
répertoire personnel créé . DéfiniHADOOP_HOME = <<Hadoop home directory>>
dans la variable d'environnement.Nous utiliserons un package Spark pré-construit, alors choisissez un package Spark pré-construit pour le téléchargement Hadoop Spark . Téléchargez et extrayez-le.
Définissez
SPARK_HOME
et ajoutez la%SPARK_HOME%\bin
variable PATH dans les variables d'environnement.Exécuter la commande:
spark-shell
Ouvrez
http://localhost:4040/
dans un navigateur pour voir l'interface utilisateur Web SparkContext.la source
Vous pouvez télécharger Spark à partir d'ici:
http://spark.apache.org/downloads.html
Je vous recommande cette version: Hadoop 2 (HDP2, CDH5)
Depuis la version 1.0.0, il existe des scripts .cmd pour exécuter Spark dans Windows.
Déballez-le en utilisant 7zip ou similaire.
Pour commencer, vous pouvez exécuter /bin/spark-shell.cmd --master local [2]
Pour configurer votre instance, vous pouvez suivre ce lien: http://spark.apache.org/docs/latest/
la source
Vous pouvez utiliser les méthodes suivantes pour configurer Spark:
Bien qu'il existe différentes façons de créer Spark à partir de la source .
J'ai d'abord essayé de créer une source Spark avec SBT mais cela nécessite hadoop. Pour éviter ces problèmes, j'ai utilisé une version pré-construite.
Au lieu de Source, j'ai téléchargé la version pré-construite pour la version hadoop 2.x et l'ai exécutée. Pour cela, vous devez installer Scala comme condition préalable.
J'ai rassemblé toutes les étapes ici:
Comment exécuter Apache Spark sur Windows7 en mode autonome
J'espère que cela vous aidera .. !!!
la source
Essayer de travailler avec spark-2.xx, créer le code source de Spark n'a pas fonctionné pour moi.
Donc, même si je ne vais pas utiliser Hadoop, j'ai téléchargé le Spark pré-construit avec hadoop intégré:
spark-2.0.0-bin-hadoop2.7.tar.gz
Pointez SPARK_HOME sur le répertoire extrait, puis ajoutez à
PATH
:;%SPARK_HOME%\bin;
Téléchargez l'exécutable winutils depuis le référentiel Hortonworks ou depuis la plateforme Amazon AWS winutils .
Créez un répertoire dans lequel vous placez l'exécutable winutils.exe. Par exemple, C: \ SparkDev \ x64. Ajoutez la variable d'environnement
%HADOOP_HOME%
qui pointe vers ce répertoire, puis ajoutez%HADOOP_HOME%\bin
à PATH.En utilisant la ligne de commande, créez le répertoire:
À l'aide de l'exécutable que vous avez téléchargé, ajoutez des autorisations complètes au répertoire de fichiers que vous avez créé mais en utilisant le formalisme unixian:
Tapez la ligne de commande suivante:
L'entrée de la ligne de commande Scala doit être affichée automatiquement.
Remarque: vous n'avez pas besoin de configurer Scala séparément. Il est également intégré.
la source
Voici les correctifs pour le faire fonctionner sous Windows sans tout reconstruire, par exemple si vous ne disposez pas d'une version récente de MS-VS. (Vous aurez besoin d'un compilateur Win32 C ++, mais vous pouvez installer MS VS Community Edition gratuitement.)
J'ai essayé cela avec Spark 1.2.2 et mahout 0.10.2 ainsi qu'avec les dernières versions de novembre 2015. Il y a un certain nombre de problèmes, y compris le fait que le code Scala essaie d'exécuter un script bash (mahout / bin / mahout) qui ne fonctionne pas bien sûr, les scripts sbin n'ont pas été portés sous windows, et les winutils sont manquants si hadoop n'est pas installé.
(1) Installez scala, puis décompressez spark / hadoop / mahout à la racine de C: sous leurs noms de produits respectifs.
(2) Renommez \ mahout \ bin \ mahout en mahout.sh.was (nous n'en aurons pas besoin)
(3) Compilez le programme Win32 C ++ suivant et copiez l'exécutable dans un fichier nommé C: \ mahout \ bin \ mahout (c'est vrai - pas de suffixe .exe, comme un exécutable Linux)
(4) Créez le script \ mahout \ bin \ mahout.bat et collez le contenu ci-dessous, bien que les noms exacts des fichiers jar dans les chemins de classe _CP dépendent des versions de spark et de mahout. Mettez à jour tous les chemins selon votre installation. Utilisez des noms de chemin 8.3 sans espaces. Notez que vous ne pouvez pas utiliser de caractères génériques / astérisques dans les chemins de classe ici.
Le nom de la variable MAHOUT_CP ne doit pas être modifié, car il est référencé dans le code C ++.
Bien sûr, vous pouvez commenter le code qui lance le maître et le travailleur Spark car Mahout exécutera Spark selon les besoins; Je viens de le mettre dans le travail par lots pour vous montrer comment le lancer si vous vouliez utiliser Spark sans Mahout.
(5) Le didacticiel suivant est un bon point de départ:
Vous pouvez afficher l'instance Mahout Spark à l'adresse:
la source
Le guide d'Ani Menon (merci!) A presque fonctionné pour moi sur Windows 10, je devais juste obtenir un winutils.exe plus récent sur ce git (actuellement hadoop-2.8.1): https://github.com/steveloughran/winutils
la source
Voici sept étapes pour installer Spark sur Windows 10 et l'exécuter à partir de python:
Étape 1: téléchargez le fichier gz spark 2.2.0 tar (archive sur bande) dans n'importe quel dossier F à partir de ce lien - https://spark.apache.org/downloads.html . Décompressez-le et copiez le dossier décompressé dans le dossier souhaité A. Renommez le dossier spark-2.2.0-bin-hadoop2.7 pour spark.
Laissez le chemin d'accès au dossier spark être C: \ Users \ Desktop \ A \ spark
Étape 2: téléchargez le fichier hardoop 2.7.3 tar gz dans le même dossier F à partir de ce lien - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Décompressez-le et copiez le dossier décompressé dans le même dossier A. Renommez le nom du dossier de Hadoop-2.7.3.tar en hadoop. Laissez le chemin vers le dossier hadoop être C: \ Users \ Desktop \ A \ hadoop
Étape 3: Créez un nouveau fichier texte de bloc-notes. Enregistrez ce fichier de bloc-notes vide sous winutils.exe (avec le type Enregistrer sous: Tous les fichiers). Copiez ce fichier O KB winutils.exe dans votre dossier bin dans spark - C: \ Users \ Desktop \ A \ spark \ bin
Étape 4: Maintenant, nous devons ajouter ces dossiers à l'environnement système.
4a: Créez une variable système (pas une variable utilisateur car la variable utilisateur héritera de toutes les propriétés de la variable système) Nom de la variable: SPARK_HOME Valeur de la variable: C: \ Users \ Desktop \ A \ spark
Recherchez la variable système Path et cliquez sur Modifier. Vous verrez plusieurs chemins. Ne supprimez aucun des chemins. Ajoutez cette valeur de variable -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Créer une variable système
Nom de la variable: HADOOP_HOME Valeur de la variable: C: \ Users \ Desktop \ A \ hadoop
Recherchez la variable système Path et cliquez sur Modifier. Ajoutez cette valeur de variable -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Créer une variable système Nom de la variable: JAVA_HOME Recherche Java dans Windows. Faites un clic droit et cliquez sur l'emplacement du fichier ouvert. Vous devrez à nouveau faire un clic droit sur l'un des fichiers java et cliquer sur l'emplacement du fichier ouvert. Vous utiliserez le chemin de ce dossier. OU vous pouvez rechercher C: \ Program Files \ Java. Ma version Java installée sur le système est jre1.8.0_131. Valeur de la variable: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Recherchez la variable système Path et cliquez sur Modifier. Ajoutez cette valeur de variable -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Étape 5: Ouvrez l'invite de commande et accédez à votre dossier spark bin (tapez cd C: \ Users \ Desktop \ A \ spark \ bin). Tapez étincelle.
Cela peut prendre du temps et donner quelques avertissements. Enfin, il affichera bienvenue à Spark version 2.2.0
Étape 6: Tapez exit () ou redémarrez l'invite de commande et accédez à nouveau au dossier Spark Bin. Tapez pyspark:
Il affichera quelques avertissements et erreurs mais les ignorera. Ça marche.
Étape 7: Votre téléchargement est terminé. Si vous souhaitez exécuter directement spark à partir du shell python, allez dans Scripts dans votre dossier python et tapez
dans l'invite de commande.
Dans le shell python
importer les modules nécessaires
Si vous souhaitez ignorer les étapes d'importation de findpark et de son initialisation, veuillez suivre la procédure indiquée dans l' importation de pyspark dans le shell python
la source
Voici un script minimum simple à exécuter à partir de n'importe quelle console Python. Cela suppose que vous avez extrait les bibliothèques Spark que vous avez téléchargées dans C: \ Apache \ spark-1.6.1.
Cela fonctionne sous Windows sans rien construire et résout les problèmes où Spark se plaindrait du décapage récursif.
la source
Cloudera et Hortonworks sont les meilleurs outils pour démarrer avec le HDFS dans Microsoft Windows. Vous pouvez également utiliser VMWare ou VBox pour lancer la machine virtuelle afin d'établir une compilation sur votre HDFS et Spark, Hive, HBase, Pig, Hadoop avec Scala, R, Java, Python.
la source