Je veux créer DataFrameavec un schéma spécifié dans Scala. J'ai essayé d'utiliser JSON read (je veux dire lire un fichier vide) mais je ne pense pas que ce soit la meilleure pratique.
Je veux créer DataFrameavec un schéma spécifié dans Scala. J'ai essayé d'utiliser JSON read (je veux dire lire un fichier vide) mais je ne pense pas que ce soit la meilleure pratique.
J'ai une application Spark qui fonctionne sans problème en mode local, mais j'ai quelques problèmes lors de la soumission au cluster Spark. Les messages d'erreur sont les suivants: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):...
J'essaye de configurer Apache Spark sur Windows. Après avoir cherché un peu, je comprends que le mode autonome est ce que je veux. Quels binaires dois-je télécharger pour exécuter Apache Spark dans Windows? Je vois des distributions avec hadoop et cdh sur la page de téléchargement de Spark. Je...
J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFramedans Spark-Scala. à partir de maintenant, je propose le code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...
Dans mon spark-shell, que signifient les entrées comme celles ci-dessous lorsque j'exécute une fonction? [Stage7:===========> (14174 + 5) / 62500]
Y a-t-il des dépendances entre Spark et Hadoop ? Sinon, y a-t-il des fonctionnalités qui me manqueront lorsque j'exécuterai Spark sans Hadoop ?
Je ne peux pas exécuter un sparktravail simple dans Scala IDE(projet Maven spark) installé surWindows 7 La dépendance du noyau Spark a été ajoutée. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt")...
J'ai construit Spark 1.4 à partir du maître de développement GH, et la construction s'est bien déroulée. Mais quand je fais un, bin/pysparkj'obtiens la version Python 2.7.9. Comment puis-je changer cela?
J'utilise pyspark (Python 2.7.9 / Spark 1.3.1) et j'ai un Dataframe GroupObject dont j'ai besoin pour filtrer et trier dans l'ordre décroissant. Essayer d'y parvenir via ce morceau de code. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mais cela génère...
J'ai essayé de démarrer spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) sur Mac OS Yosemite 10.10.5 en utilisant "./bin/spark-shell". Il a l'erreur ci-dessous. J'ai également essayé d'installer différentes versions de Spark mais toutes ont la même erreur. C'est la deuxième fois que j'exécute Spark. Ma...
Depuis mon interface utilisateur Spark. Que signifie ignoré?
J'utilise spark 1.4.0-rc2 pour pouvoir utiliser python 3 avec spark. Si j'ajoute export PYSPARK_PYTHON=python3à mon fichier .bashrc, je peux exécuter spark de manière interactive avec python 3. Cependant, si je veux exécuter un programme autonome en mode local, j'obtiens une erreur: Exception:...
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 jours . Je suis allé à un entretien d'embauche d'ingénieur...
Utilisation de spark 2.4.4 fonctionnant en mode cluster YARN avec le planificateur spark FIFO. Je soumets plusieurs opérations de trame de données spark (c'est-à-dire l'écriture de données dans S3) à l'aide d'un exécuteur de pool de threads avec un nombre variable de threads. Cela fonctionne très...
J'ai installé OpenJDK 13.0.1 et python 3.8 et spark 2.4.4. Les instructions pour tester l'installation consistent à exécuter. \ Bin \ pyspark à partir de la racine de l'installation spark. Je ne sais pas si j'ai raté une étape de l'installation de spark, comme la définition d'une variable...
Quel serait le moyen le plus efficace d'insérer des millions d'enregistrements, par exemple 50 millions d'une trame de données Spark dans des tables Postgres. J'ai fait cela de spark à MSSQL dans le passé en utilisant l' option de copie en bloc et de taille de lot qui a également réussi. Y a-t-il...
Pour comparer les performances de Spark lors de l'utilisation de Python et Scala, j'ai créé le même travail dans les deux langues et comparé le runtime. Je m'attendais à ce que les deux travaux prennent à peu près la même quantité de temps, mais le travail Python a pris seulement 27min, tandis que...
J'ai récemment commencé à obtenir un tas d'erreurs sur un certain nombre de pysparktravaux exécutés sur des clusters EMR. Les erros sont java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at
J'explore le comportement de Spark en joignant une table à elle-même. J'utilise Databricks. Mon scénario fictif est: Lire une table externe en tant que trame de données A (les fichiers sous-jacents sont au format delta) Définissez la trame de données B comme trame de données A avec seulement...
J'ai une trame de données avec le code suivant: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...