Questions marquées «apache-spark-sql»

258

Différence entre DataFrame, Dataset et RDD dans Spark

Je me demande simplement quelle est la différence entre un RDDet DataFrame (Spark 2.0.0 DataFrame est un simple alias de type pour Dataset[Row]) dans Apache Spark? Pouvez-vous convertir l'un à

152

Comment puis-je modifier les types de colonnes dans DataFrame de Spark SQL?

Supposons que je fasse quelque chose comme: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string...

scala apache-spark apache-spark-sql

143

Comment sélectionner la première ligne de chaque groupe?

J'ai un DataFrame généré comme suit: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Les résultats ressemblent à: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0|...

sql scala apache-spark dataframe apache-spark-sql

142

Spark - charger le fichier CSV en tant que DataFrame?

Je voudrais lire un CSV dans Spark et le convertir en DataFrame et le stocker en HDFS avec df.registerTempTable("table_name") J'ai essayé: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erreur que j'ai obtenue: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a...

scala apache-spark hadoop apache-spark-sql hdfs

139

Comment convertir un objet rdd en dataframe dans Spark

Comment puis-je convertir un RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) en Dataframe org.apache.spark.sql.DataFrame. J'ai converti un dataframe en rdd en utilisant .rdd. Après l'avoir traité, je veux le remettre dans le dataframe. Comment puis-je faire ceci

scala apache-spark apache-spark-sql rdd

137

Comment trier par colonne dans l'ordre décroissant dans Spark SQL?

J'ai essayé df.orderBy("col1").show(10)mais il a trié par ordre croissant. df.sort("col1").show(10)trie également par ordre décroissant. J'ai regardé stackoverflow et les réponses que j'ai trouvées étaient toutes obsolètes ou renvoyées à des RDD . J'aimerais utiliser le dataframe natif dans...

scala apache-spark apache-spark-sql

137

Comment ajouter une colonne constante dans un Spark DataFrame?

Je veux ajouter une colonne dans un DataFrameavec une valeur arbitraire (c'est la même chose pour chaque ligne). J'obtiens une erreur lorsque j'utilise withColumncomme suit: dt.withColumn('new_column', 10).head(5) ---------------------------------------------------------------------------...

python apache-spark dataframe pyspark apache-spark-sql

129

Comment définir le partitionnement de DataFrame?

J'ai commencé à utiliser Spark SQL et DataFrames dans Spark 1.4.0. Je souhaite définir un partitionneur personnalisé sur DataFrames, dans Scala, mais je ne vois pas comment faire cela. L'une des tables de données avec lesquelles je travaille contient une liste de transactions, par compte, silimar à...

scala apache-spark dataframe apache-spark-sql partitioning

129

Comment ajouter une nouvelle colonne à un Spark DataFrame (à l'aide de PySpark)?

J'ai un Spark DataFrame (utilisant PySpark 1.5.1) et j'aimerais ajouter une nouvelle colonne. J'ai essayé ce qui suit sans succès: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col =...

python apache-spark dataframe pyspark apache-spark-sql

116

Concaténer les colonnes dans Apache Spark DataFrame

Comment concaténer deux colonnes dans un DataFrame Apache Spark? Existe-t-il une fonction dans Spark SQL que nous pouvons

sql apache-spark dataframe apache-spark-sql

101

Comment vérifier si Spark Dataframe est vide?

En ce moment, je dois utiliser df.count > 0pour vérifier si leDataFrame est vide ou non. Mais c'est un peu inefficace. Y a-t-il une meilleure façon de faire cela? Merci. PS: je veux vérifier s'il est vide pour ne sauvegarder que DataFrames'il n'est pas

apache-spark apache-spark-sql

100

Filtrer la colonne de dataframe Pyspark avec la valeur Aucun

J'essaie de filtrer un dataframe PySpark qui a Nonecomme valeur de ligne: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] et je peux filtrer...

python apache-spark dataframe pyspark apache-spark-sql

99

comment changer une colonne Dataframe du type String en type Double dans pyspark

J'ai un dataframe avec une colonne sous forme de chaîne. Je voulais changer le type de colonne en type Double dans PySpark. Voici le chemin que j'ai fait: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Je voulais...

python apache-spark dataframe pyspark apache-spark-sql

94

Comment créer un DataFrame vide avec un schéma spécifié?

Je veux créer DataFrameavec un schéma spécifié dans Scala. J'ai essayé d'utiliser JSON read (je veux dire lire un fichier vide) mais je ne pense pas que ce soit la meilleure pratique.

scala apache-spark dataframe apache-spark-sql

93

Renommer les noms de colonne d'un DataFrame dans Spark Scala

J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFramedans Spark-Scala. à partir de maintenant, je propose le code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...

scala apache-spark dataframe apache-spark-sql

88

Spark DataFrame groupBy et tri dans l'ordre décroissant (pyspark)

J'utilise pyspark (Python 2.7.9 / Spark 1.3.1) et j'ai un Dataframe GroupObject dont j'ai besoin pour filtrer et trier dans l'ordre décroissant. Essayer d'y parvenir via ce morceau de code. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mais cela génère...

python apache-spark dataframe pyspark apache-spark-sql

16

Écriture de plus de 50 millions de Pyspark df vers PostgresSQL, meilleure approche efficace

Quel serait le moyen le plus efficace d'insérer des millions d'enregistrements, par exemple 50 millions d'une trame de données Spark dans des tables Postgres. J'ai fait cela de spark à MSSQL dans le passé en utilisant l' option de copie en bloc et de taille de lot qui a également réussi. Y a-t-il...

postgresql apache-spark pyspark apache-spark-sql bigdata

9

Spark: UDF exécuté plusieurs fois

J'ai une trame de données avec le code suivant: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...

scala apache-spark apache-spark-sql