Questions marquées «apache-spark»

94

Comment créer un DataFrame vide avec un schéma spécifié?

Je veux créer DataFrameavec un schéma spécifié dans Scala. J'ai essayé d'utiliser JSON read (je veux dire lire un fichier vide) mais je ne pense pas que ce soit la meilleure pratique.

93

Spark - Erreur "Une URL principale doit être définie dans votre configuration" lors de la soumission d'une application

J'ai une application Spark qui fonctionne sans problème en mode local, mais j'ai quelques problèmes lors de la soumission au cluster Spark. Les messages d'erreur sont les suivants: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):...

scala apache-spark

93

Comment configurer Spark sur Windows?

J'essaye de configurer Apache Spark sur Windows. Après avoir cherché un peu, je comprends que le mode autonome est ce que je veux. Quels binaires dois-je télécharger pour exécuter Apache Spark dans Windows? Je vois des distributions avec hadoop et cdh sur la page de téléchargement de Spark. Je...

windows apache-spark

93

Renommer les noms de colonne d'un DataFrame dans Spark Scala

J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFramedans Spark-Scala. à partir de maintenant, je propose le code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...

scala apache-spark dataframe apache-spark-sql

92

Que signifient les nombres sur la barre de progression dans Spark-Shell?

Dans mon spark-shell, que signifient les entrées comme celles ci-dessous lorsque j'exécute une fonction? [Stage7:===========> (14174 + 5) / 62500]

apache-spark

91

Apache Spark peut-il fonctionner sans hadoop?

Y a-t-il des dépendances entre Spark et Hadoop ? Sinon, y a-t-il des fonctionnalités qui me manqueront lorsque j'exécuterai Spark sans Hadoop ?

hadoop amazon-s3 apache-spark mapreduce mesos

91

java.io.IOException: impossible de localiser l'exécutable null \ bin \ winutils.exe dans les binaires Hadoop. spark Eclipse sur Windows 7

Je ne peux pas exécuter un sparktravail simple dans Scala IDE(projet Maven spark) installé surWindows 7 La dépendance du noyau Spark a été ajoutée. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt")...

eclipse scala apache-spark

91

Apache Spark: Comment utiliser pyspark avec Python 3

J'ai construit Spark 1.4 à partir du maître de développement GH, et la construction s'est bien déroulée. Mais quand je fais un, bin/pysparkj'obtiens la version Python 2.7.9. Comment puis-je changer cela?

python python-3.x apache-spark

88

Spark DataFrame groupBy et tri dans l'ordre décroissant (pyspark)

J'utilise pyspark (Python 2.7.9 / Spark 1.3.1) et j'ai un Dataframe GroupObject dont j'ai besoin pour filtrer et trier dans l'ordre décroissant. Essayer d'y parvenir via ce morceau de code. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mais cela génère...

python apache-spark dataframe pyspark apache-spark-sql

87

Erreur Mac Spark-Shell lors de l'initialisation de SparkContext

J'ai essayé de démarrer spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) sur Mac OS Yosemite 10.10.5 en utilisant "./bin/spark-shell". Il a l'erreur ci-dessous. J'ai également essayé d'installer différentes versions de Spark mais toutes ont la même erreur. C'est la deuxième fois que j'exécute Spark. Ma...

apache-spark

87

Que signifie «Stage Skipped» dans l'interface utilisateur Web d'Apache Spark?

Depuis mon interface utilisateur Spark. Que signifie ignoré?

apache-spark rdd

87

Comment définir la version python du pilote dans Spark?

J'utilise spark 1.4.0-rc2 pour pouvoir utiliser python 3 avec spark. Si j'ajoute export PYSPARK_PYTHON=python3à mon fichier .bashrc, je peux exécuter spark de manière interactive avec python 3. Cependant, si je veux exécuter un programme autonome en mode local, j'obtiens une erreur: Exception:...

apache-spark pyspark

20

Calculer la vitesse moyenne des routes [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 jours . Je suis allé à un entretien d'embauche d'ingénieur...

apache-spark apache-kafka stream-processing

17

Blocage lorsque de nombreux travaux d'allumage sont planifiés simultanément

Utilisation de spark 2.4.4 fonctionnant en mode cluster YARN avec le planificateur spark FIFO. Je soumets plusieurs opérations de trame de données spark (c'est-à-dire l'écriture de données dans S3) à l'aide d'un exécuteur de pool de threads avec un nombre variable de threads. Cela fonctionne très...

apache-spark

16

Comment corriger l'erreur `` TypeError: un entier est requis (octets de type obtenus) '' lors de la tentative d'exécution de pyspark après l'installation de spark 2.4.4

J'ai installé OpenJDK 13.0.1 et python 3.8 et spark 2.4.4. Les instructions pour tester l'installation consistent à exécuter. \ Bin \ pyspark à partir de la racine de l'installation spark. Je ne sais pas si j'ai raté une étape de l'installation de spark, comme la définition d'une variable...

apache-spark pyspark

16

Écriture de plus de 50 millions de Pyspark df vers PostgresSQL, meilleure approche efficace

Quel serait le moyen le plus efficace d'insérer des millions d'enregistrements, par exemple 50 millions d'une trame de données Spark dans des tables Postgres. J'ai fait cela de spark à MSSQL dans le passé en utilisant l' option de copie en bloc et de taille de lot qui a également réussi. Y a-t-il...

postgresql apache-spark pyspark apache-spark-sql bigdata

16

Spark: Pourquoi Python surpasse-t-il significativement Scala dans mon cas d'utilisation?

Pour comparer les performances de Spark lors de l'utilisation de Python et Scala, j'ai créé le même travail dans les deux langues et comparé le runtime. Je m'attendais à ce que les deux travaux prennent à peu près la même quantité de temps, mais le travail Python a pris seulement 27min, tandis que...

python scala apache-spark pyspark

12

pandasUDF et pyarrow 0.15.0

J'ai récemment commencé à obtenir un tas d'erreurs sur un certain nombre de pysparktravaux exécutés sur des clusters EMR. Les erros sont java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at

pandas apache-spark pyspark pyarrow

10

Apache Spark: impact du repartitionnement, du tri et de la mise en cache sur une jointure

J'explore le comportement de Spark en joignant une table à elle-même. J'utilise Databricks. Mon scénario fictif est: Lire une table externe en tant que trame de données A (les fichiers sous-jacents sont au format delta) Définissez la trame de données B comme trame de données A avec seulement...

apache-spark pyspark bigdata azure-databricks delta-lake

9

Spark: UDF exécuté plusieurs fois

J'ai une trame de données avec le code suivant: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...

scala apache-spark apache-spark-sql