“Pivot Spark Data Cadre à l'aide de Python” Réponses codées

Pivot Spark Data Cadre à l'aide de Python

from pyspark.sql.functions import avg

flights = (sqlContext
    .read
    .format("csv")
    .options(inferSchema="true", header="true")
    .load("flights.csv")
    .na.drop())

flights.registerTempTable("flights")
sqlContext.cacheTable("flights")

gexprs = ("origin", "dest", "carrier")
aggexpr = avg("arr_delay")

flights.count()
## 336776

%timeit -n10 flights.groupBy(*gexprs ).pivot("hour").agg(aggexpr).count()
## 10 loops, best of 3: 1.03 s per loop

Anuj Sharma

Réponses similaires à “Pivot Spark Data Cadre à l'aide de Python”

Les liaisons Python 2 pour RPM sont nécessaires pour ce module. Si vous avez besoin de support Python 3 Utilisez plutôt le module `DNF` ANSIBLE. Le module Python 2 YUM est nécessaire pour ce module. Si vous avez besoin de support Python 3, utilisez plutôt le module `DNF` ANSIBLE.

Questions similaires à “Pivot Spark Data Cadre à l'aide de Python”

Plus de réponses similaires à “Pivot Spark Data Cadre à l'aide de Python” dans Python

Parcourir les réponses de code populaires par langue

Parcourir d'autres langages de code

Shell/Bash

C++

CSS

HTML

Java

JavaScript

Objective-C

PHP

Python

Sql

Swift

Ruby

TypeScript

Kotlin

Assembly

VBA

Scala

Rust

Dart

Elixir

Clojure

Haskell

Matlab

Erlang

Cobol

Fortran

Scheme

Perl

Groovy

Lua

Julia

Delphi

Abap

Lisp

Prolog

Pascal

ActionScript

Basic

Solidity

PowerShell

GDScript

Excel