Obtenir le total de la colonne Pandas

107

Cible

J'ai une trame de données Pandas, comme indiqué ci - dessous, avec plusieurs colonnes et que vous souhaitez obtenir le total de la colonne, MyColumn.

Trame de données -df:

print df

           X           MyColumn  Y              Z   
0          A           84        13.0           69.0   
1          B           76         77.0          127.0   
2          C           28         69.0           16.0   
3          D           28         28.0           31.0   
4          E           19         20.0           85.0   
5          F           84        193.0           70.0

Ma tentative :

J'ai essayé d'obtenir la somme de la colonne en utilisant groupbyet .sum():

Total = df.groupby['MyColumn'].sum()

print Total

Cela provoque l'erreur suivante:

TypeError: 'instancemethod' object has no attribute '__getitem__'

Production attendue

Je m'attendais à ce que la sortie soit comme suit:

Ou bien, je voudrais dfêtre édité avec un nouveau rowtitre TOTALcontenant le total:

           X           MyColumn  Y              Z   
0          A           84        13.0           69.0   
1          B           76         77.0          127.0   
2          C           28         69.0           16.0   
3          D           28         28.0           31.0   
4          E           19         20.0           85.0   
5          F           84        193.0           70.0   
TOTAL                  319

python pandas dataframe sum LearningToJava
la source

11

Pour une illustration de la raison pour laquelle les pandas ne sont pas pythoniques, ne cherchez pas plus loin que la confusion sur la façon de simplement additionner une colonne.

user1416227

215

Vous devez utiliser sum:

Total = df['MyColumn'].sum()
print (Total)
319

Ensuite, vous utilisez locavec Series, dans ce cas, l'index doit être défini comme la même colonne que vous devez additionner:

df.loc['Total'] = pd.Series(df['MyColumn'].sum(), index = ['MyColumn'])
print (df)
         X  MyColumn      Y      Z
0        A      84.0   13.0   69.0
1        B      76.0   77.0  127.0
2        C      28.0   69.0   16.0
3        D      28.0   28.0   31.0
4        E      19.0   20.0   85.0
5        F      84.0  193.0   70.0
Total  NaN     319.0    NaN    NaN

car si vous passez scalaire, les valeurs de toutes les lignes seront remplies:

df.loc['Total'] = df['MyColumn'].sum()
print (df)
         X  MyColumn      Y      Z
0        A        84   13.0   69.0
1        B        76   77.0  127.0
2        C        28   69.0   16.0
3        D        28   28.0   31.0
4        E        19   20.0   85.0
5        F        84  193.0   70.0
Total  319       319  319.0  319.0

Deux autres solutions sont avec at, et ixvoir les applications ci-dessous:

df.at['Total', 'MyColumn'] = df['MyColumn'].sum()
print (df)
         X  MyColumn      Y      Z
0        A      84.0   13.0   69.0
1        B      76.0   77.0  127.0
2        C      28.0   69.0   16.0
3        D      28.0   28.0   31.0
4        E      19.0   20.0   85.0
5        F      84.0  193.0   70.0
Total  NaN     319.0    NaN    NaN

df.ix['Total', 'MyColumn'] = df['MyColumn'].sum()
print (df)
         X  MyColumn      Y      Z
0        A      84.0   13.0   69.0
1        B      76.0   77.0  127.0
2        C      28.0   69.0   16.0
3        D      28.0   28.0   31.0
4        E      19.0   20.0   85.0
5        F      84.0  193.0   70.0
Total  NaN     319.0    NaN    NaN

Remarque: depuis Pandas v0.20, ixest obsolète. Utilisez locou à la ilocplace.

jezrael
la source

C'est super :) Merci pour l'explication, puis-je demander ce que .locfait l'exemple ci-dessus?

LearningToJava

locest pour le réglage avec agrandissement .

jezrael

atfonctionne également pour le réglage avec agrandissement, voir la dernière modification.

jezrael

Merci, y a-t-il une méthode préférée?

LearningToJava

1

Hmmm, dit la documentation The .loc/.ix/[] operations can perform enlargement when setting a non-existant key for that axis., oui locou ixou []. dans la section suivante est écrit at may enlarge the object in-place as above if the indexer is missing.Donc toutes les méthodes sont bonnes, mais atc'est le plus rapide je pense.

jezrael

22

Une autre option que vous pouvez utiliser ici:

df.loc["Total", "MyColumn"] = df.MyColumn.sum()

#         X  MyColumn      Y       Z
#0        A     84.0    13.0    69.0
#1        B     76.0    77.0   127.0
#2        C     28.0    69.0    16.0
#3        D     28.0    28.0    31.0
#4        E     19.0    20.0    85.0
#5        F     84.0   193.0    70.0
#Total  NaN    319.0     NaN     NaN

Vous pouvez également utiliser la append()méthode:

df.append(pd.DataFrame(df.MyColumn.sum(), index = ["Total"], columns=["MyColumn"]))

Mettre à jour:

Si vous devez ajouter une somme pour toutes les colonnes numériques , vous pouvez effectuer l'une des opérations suivantes:

Utilisez appendpour le faire de manière fonctionnelle (ne change pas la trame de données d'origine):

# select numeric columns and calculate the sums
sums = df.select_dtypes(pd.np.number).sum().rename('total')

# append sums to the data frame
df.append(sums)
#         X  MyColumn      Y      Z
#0        A      84.0   13.0   69.0
#1        B      76.0   77.0  127.0
#2        C      28.0   69.0   16.0
#3        D      28.0   28.0   31.0
#4        E      19.0   20.0   85.0
#5        F      84.0  193.0   70.0
#total  NaN     319.0  400.0  398.0

Utilisez locpour muter la trame de données en place:

df.loc['total'] = df.select_dtypes(pd.np.number).sum()
df
#         X  MyColumn      Y      Z
#0        A      84.0   13.0   69.0
#1        B      76.0   77.0  127.0
#2        C      28.0   69.0   16.0
#3        D      28.0   28.0   31.0
#4        E      19.0   20.0   85.0
#5        F      84.0  193.0   70.0
#total  NaN     638.0  800.0  796.0

Psidom
la source

Qu'en est-il de la somme de toutes les colonnes?

FaCoffee

9

Semblable à l'obtention de la longueur d'une dataframe len(df), les éléments suivants ont fonctionné pour les pandas et les flammes:

Total = sum(df['MyColumn'])

Ou bien

Total = sum(df.MyColumn)
print Total

Jeff Crites
la source

2

Il existe deux façons de faire la somme d'une colonne

dataset = pd.read_csv ("data.csv")

1: somme (ensemble de données. Nom_colonne)

2: ensemble de données ['Column_Name']. Sum ()

S'il y a un problème, veuillez me corriger.

Suraj Verma
la source

1

Comme autre option, vous pouvez faire quelque chose comme ci-dessous

Group   Valuation   amount
    0   BKB Tube    156
    1   BKB Tube    143
    2   BKB Tube    67
    3   BAC Tube    176
    4   BAC Tube    39
    5   JDK Tube    75
    6   JDK Tube    35
    7   JDK Tube    155
    8   ETH Tube    38
    9   ETH Tube    56

Sous le script, vous pouvez utiliser pour les données ci-dessus

import pandas as pd    
data = pd.read_csv("daata1.csv")
bytreatment = data.groupby('Group')
bytreatment['amount'].sum()

Ghanshyam Savaliya
la source

Obtenir le total de la colonne Pandas

Réponses: