Questions marquées «apache-spark»

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

254
Spark - répartition () vs coalesce ()

Selon Learning Spark Gardez à l'esprit que la répartition de vos données est une opération assez coûteuse. Spark a également une version optimisée de repartition()appelée coalesce()qui permet d'éviter le mouvement des données, mais uniquement si vous diminuez le nombre de partitions RDD. Une...

228
Spark java.lang.OutOfMemoryError: espace de tas Java

Mon cluster: 1 maître, 11 esclaves, chaque nœud a 6 Go de mémoire. Mes paramètres: spark.executor.memory=4g, Dspark.akka.frameSize=512 Voici le problème: Tout d'abord , j'ai lu certaines données (2,19 Go) de HDFS vers RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Deuxièmement , faites quelque...

224
Tâche non sérialisable: java.io.NotSerializableException lors de l'appel de la fonction en dehors de la fermeture uniquement sur les classes et non les objets

Obtenir un comportement étrange lors de l'appel d'une fonction en dehors d'une fermeture: quand la fonction est dans un objet tout fonctionne lorsque la fonction est dans une classe, obtenez: Tâche non sérialisable: java.io.NotSerializableException: test Le problème est que j'ai besoin de mon code...

183
Performances Spark pour Scala vs Python

Je préfère Python à Scala. Mais, comme Spark est écrit nativement dans Scala, je m'attendais à ce que mon code s'exécute plus rapidement dans la version Scala que dans la version Python pour des raisons évidentes. Avec cette hypothèse, j'ai pensé apprendre et écrire la version Scala d'un code de...

179
Comment lire plusieurs fichiers texte dans un seul RDD?

Je veux lire un tas de fichiers texte à partir d'un emplacement hdfs et effectuer un mappage dessus dans une itération à l'aide de spark. JavaRDD<String> records = ctx.textFile(args[1], 1); est capable de lire un seul fichier à la fois. Je veux lire plus d'un fichier et les traiter comme un...

143
Comment les étapes sont-elles divisées en tâches dans Spark?

Supposons pour ce qui suit qu'un seul travail Spark est en cours d'exécution à chaque instant. Ce que j'obtiens si loin Voici ce que je comprends de ce qui se passe dans Spark: Lors de la création d'un SparkContext, chaque nœud de travail démarre un exécuteur. Les exécuteurs sont des processus...