Questions marquées «pyspark»

L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.

183
Performances Spark pour Scala vs Python

Je préfère Python à Scala. Mais, comme Spark est écrit nativement dans Scala, je m'attendais à ce que mon code s'exécute plus rapidement dans la version Scala que dans la version Python pour des raisons évidentes. Avec cette hypothèse, j'ai pensé apprendre et écrire la version Scala d'un code de...

111
importation de pyspark dans le shell python

Ceci est une copie de la question de quelqu'un d'autre sur un autre forum qui n'a jamais reçu de réponse, alors j'ai pensé que je la poserais à nouveau ici, car j'ai le même problème. (Voir http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) J'ai installé Spark correctement sur ma machine...

110
Charger le fichier CSV avec Spark

Je suis nouveau sur Spark et j'essaie de lire les données CSV à partir d'un fichier avec Spark. Voici ce que je fais: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Je m'attendrais à ce que cet appel me donne une liste des deux premières colonnes de...

101
Application en cours d'exécution Spark Kill

J'ai une application Spark en cours d'exécution où elle occupe tous les cœurs où mes autres applications ne recevront aucune ressource. J'ai fait quelques recherches rapides et les gens ont suggéré d'utiliser YARN kill ou / bin / spark-class pour tuer la commande. Cependant, j'utilise la version...

87
Comment définir la version python du pilote dans Spark?

J'utilise spark 1.4.0-rc2 pour pouvoir utiliser python 3 avec spark. Si j'ajoute export PYSPARK_PYTHON=python3à mon fichier .bashrc, je peux exécuter spark de manière interactive avec python 3. Cependant, si je veux exécuter un programme autonome en mode local, j'obtiens une erreur: Exception:...

12
pandasUDF et pyarrow 0.15.0

J'ai récemment commencé à obtenir un tas d'erreurs sur un certain nombre de pysparktravaux exécutés sur des clusters EMR. Les erros sont java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at