Je me demande simplement quelle est la différence entre un RDDet DataFrame (Spark 2.0.0 DataFrame est un simple alias de type pour Dataset[Row]) dans Apache Spark? Pouvez-vous convertir l'un à
Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.
Je me demande simplement quelle est la différence entre un RDDet DataFrame (Spark 2.0.0 DataFrame est un simple alias de type pour Dataset[Row]) dans Apache Spark? Pouvez-vous convertir l'un à
Selon Learning Spark Gardez à l'esprit que la répartition de vos données est une opération assez coûteuse. Spark a également une version optimisée de repartition()appelée coalesce()qui permet d'éviter le mouvement des données, mais uniquement si vous diminuez le nombre de partitions RDD. Une...
Quelqu'un peut-il m'expliquer la différence entre map et flatMap et quel est un bon cas d'utilisation pour chacun? Que signifie «aplatir les résultats»? À quoi ça
Mon cluster: 1 maître, 11 esclaves, chaque nœud a 6 Go de mémoire. Mes paramètres: spark.executor.memory=4g, Dspark.akka.frameSize=512 Voici le problème: Tout d'abord , j'ai lu certaines données (2,19 Go) de HDFS vers RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Deuxièmement , faites quelque...
Obtenir un comportement étrange lors de l'appel d'une fonction en dehors d'une fermeture: quand la fonction est dans un objet tout fonctionne lorsque la fonction est dans une classe, obtenez: Tâche non sérialisable: java.io.NotSerializableException: test Le problème est que j'ai besoin de mon code...
J'ai lu Présentation du mode cluster et je ne comprends toujours pas les différents processus dans le cluster Spark Standalone et le parallélisme. Le travailleur est-il un processus JVM ou non? J'ai couru le bin\start-slave.shet j'ai découvert qu'il engendrait le travailleur, qui est en fait une...
En termes de RDDpersistance, quelles sont les différences entre cache()et persist()en
Je viens du milieu des pandas et j'ai l'habitude de lire les données des fichiers CSV dans une trame de données, puis de changer simplement les noms de colonne en quelque chose d'utile à l'aide de la commande simple: df.columns = new_column_name_list Cependant, la même chose ne fonctionne pas dans...
J'utilise spark-csv pour charger des données dans un DataFrame. Je veux faire une simple requête et afficher le contenu: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from...
J'essaie de comprendre la relation entre le nombre de cœurs et le nombre d'exécuteurs lors de l'exécution d'un travail Spark sur YARN. L'environnement de test est le suivant: Nombre de nœuds de données: 3 Spécifications de la machine du nœud de données: CPU: Core i7-4790 (nombre de cœurs: 4, nombre...
Je voudrais arrêter divers messages qui arrivent sur Spark Shell. J'ai essayé de modifier le log4j.propertiesfichier afin d'arrêter ces messages. Voici le contenu de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console
Je préfère Python à Scala. Mais, comme Spark est écrit nativement dans Scala, je m'attendais à ce que mon code s'exécute plus rapidement dans la version Scala que dans la version Python pour des raisons évidentes. Avec cette hypothèse, j'ai pensé apprendre et écrire la version Scala d'un code de...
Je veux lire un tas de fichiers texte à partir d'un emplacement hdfs et effectuer un mappage dessus dans une itération à l'aide de spark. JavaRDD<String> records = ctx.textFile(args[1], 1); est capable de lire un seul fichier à la fois. Je veux lire plus d'un fichier et les traiter comme un...
Lorsqu'un ensemble de données distribuées résilient (RDD) est créé à partir d'un fichier texte ou d'une collection (ou d'un autre RDD), devons-nous appeler explicitement «cache» ou «persist» pour stocker les données RDD en mémoire? Ou les données RDD sont-elles stockées de manière distribuée dans...
C'est vrai ... on en a beaucoup discuté. Cependant, il y a beaucoup d'ambiguïté et certaines des réponses fournies ... y compris la duplication des références jar dans la configuration ou les options jars / executor / driver. Les détails ambigus et / ou omis Suite à l'ambiguïté, les détails peu...
Supposons que je fasse quelque chose comme: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string...
Selon Présentation des ensembles de données Spark : Alors que nous attendons avec impatience Spark 2.0, nous prévoyons quelques améliorations intéressantes aux ensembles de données, en particulier: ... Encodeurs personnalisés - alors que nous générons actuellement des encodeurs pour une grande...
J'ai installé Spark à l'aide du guide AWS EC2 et je peux lancer le programme correctement en utilisant le bin/pysparkscript pour accéder à l'invite Spark et je peux également effectuer le démarrage rapide avec succès. Cependant, je ne peux pas pour la vie de moi comprendre comment arrêter toute la...
J'ai un DataFrame généré comme suit: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Les résultats ressemblent à: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0|...
Supposons pour ce qui suit qu'un seul travail Spark est en cours d'exécution à chaque instant. Ce que j'obtiens si loin Voici ce que je comprends de ce qui se passe dans Spark: Lors de la création d'un SparkContext, chaque nœud de travail démarre un exécuteur. Les exécuteurs sont des processus...