J'utilise spark-csv pour charger des données dans un DataFrame. Je veux faire une simple requête et afficher le contenu:
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")
df.registerTempTable("tasks")
results = sqlContext.sql("select col from tasks");
results.show()
Le col semble tronqué:
scala> results.show();
+--------------------+
| col|
+--------------------+
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-06 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
+--------------------+
Comment afficher le contenu complet de la colonne?
dataFrame.writeStream.outputMode("append").format("console").option("truncate", "false").start()
Si vous mettez
results.show(false)
, les résultats ne seront pas tronquésla source
false
s'applique ici aussi.results.show(20, False)
. Celui que vous avez mentionné donnera une erreur.scala
deux cas, les options sont valides.results.show(false)
etresults.show(20, false)
Les autres solutions sont bonnes. Si ce sont vos objectifs:
Ces deux lignes sont utiles ...
En persistant, les 2 actions de l'exécuteur, compter et afficher, sont plus rapides et plus efficaces lors de l'utilisation
persist
oucache
du maintien de la structure de trame de données sous-jacente intérimaire au sein des exécuteurs. En savoir plus sur la persistance et le cache .la source
Le code ci-dessous aiderait à afficher toutes les lignes sans troncature dans chaque colonne
la source
df
doit-elle être collectée deux fois?results.show(20, False)
ouresults.show(20, false)
selon que vous l'exécutez sur Java / Scala / Pythonla source
results.show(false)
vous montrera le contenu complet de la colonne.Afficher la méthode par défaut à 20, et ajouter un nombre avant
false
affichera plus de lignes.la source
essayez cette commande:
la source
df
doit-elle être collectée deux fois?results.show(20,false)
a fait l'affaire pour moi à Scala.la source
Dans Databricks, vous pouvez visualiser la trame de données dans un format tabulaire. Avec la commande:
Cela ressemblera à
la source
J'utilise l'extension plugin Chrome qui fonctionne plutôt bien:
[ https://userstyles.org/styles/157357/jupyter-notebook-wide
la source
Essayez ceci dans scala:
La méthode show accepte un entier et une valeur booléenne mais df.count renvoie Long ... donc la conversion de type est requise
la source
En c #
Option("truncate", false)
ne tronque pas les données dans la sortie.la source
La réponse suivante s'applique à une application Spark Streaming.
En définissant l'option "tronquer" sur false, vous pouvez indiquer au récepteur de sortie d'afficher la colonne complète.
la source