Questions marquées «apache-spark»

133
Apache Spark: map vs mapPartitions?

Quelle est la différence entre un RDD map et une mapPartitionsméthode? Et flatMapse comporte comme mapou comme mapPartitions? Merci. (modifier) ​​c'est-à-dire quelle est la différence (soit sémantiquement, soit en termes d'exécution) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a:...

128
Comment définir la mémoire Apache Spark Executor

Comment puis-je augmenter la mémoire disponible pour les nœuds exécuteurs Apache Spark? J'ai un fichier de 2 Go qui convient au chargement dans Apache Spark. J'utilise Apache Spark pour le moment sur 1 machine, donc le pilote et l'exécuteur sont sur la même machine. La machine dispose de 8 Go de...

124
Comment imprimer le contenu de RDD?

J'essaie d'imprimer le contenu d'une collection sur la console Spark. J'ai un type: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Et j'utilise la commande: scala> linesWithSessionId.map(line => println(line)) Mais ceci est imprimé: res1: org.apache.spark.rdd.RDD [Unit]...

111
importation de pyspark dans le shell python

Ceci est une copie de la question de quelqu'un d'autre sur un autre forum qui n'a jamais reçu de réponse, alors j'ai pensé que je la poserais à nouveau ici, car j'ai le même problème. (Voir http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) J'ai installé Spark correctement sur ma machine...

110
Charger le fichier CSV avec Spark

Je suis nouveau sur Spark et j'essaie de lire les données CSV à partir d'un fichier avec Spark. Voici ce que je fais: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Je m'attendrais à ce que cet appel me donne une liste des deux premières colonnes de...

108
Comment écraser le répertoire de sortie dans Spark

J'ai une application Spark Streaming qui produit un ensemble de données pour chaque minute. J'ai besoin de sauvegarder / écraser les résultats des données traitées. Lorsque j'ai essayé d'écraser l'ensemble de données org.apache.hadoop.mapred.FileAlreadyExistsException arrête l'exécution. J'ai...

101
Application en cours d'exécution Spark Kill

J'ai une application Spark en cours d'exécution où elle occupe tous les cœurs où mes autres applications ne recevront aucune ressource. J'ai fait quelques recherches rapides et les gens ont suggéré d'utiliser YARN kill ou / bin / spark-class pour tuer la commande. Cependant, j'utilise la version...