Расчесывания значения dataframe панды на основе другого столбца значений

У меня есть панда dataframe так:Расчесывания значения dataframe панды на основе другого столбца значений

import pandas as pd 
import numpy as np 

df = pd.DataFrame([['WY','M',2014,'Seth',5], 
      ['WY','M',2014,'Spencer',5], 
      ['WY','M',2014,'Tyce',5], 
      ['NY','M',2014,'Seth',25], 
      ['MA','M',2014,'Spencer',23]],columns = ['state','sex','year','name','number']) 

print df

Как манипулировать данные, чтобы получить dataframe как:

df1 = pd.DataFrame([['M',2014,'Seth',30], 
       ['M',2014,'Spencer',28], 
       ['M',2014,'Tyce',5]], 
columns = ['sex','year','name','number']) 

print df1

Это только часть из очень большого кадра данных, как бы я сделал это для каждого имени за каждый год?

источник

2016-02-26 Fungie

df[['sex','year','name','number']].groupby(['sex','year','name']).sum().reset_index()

Для краткого описания того, что это делает, слева направо:

выбрать только колонны мы заботимся о. Мы можем заменить эту часть на df.drop('state',axis=1)
Выполните группу на колонках, о которых мы заботимся.
Составьте оставшиеся столбцы (в данном случае только number).
Сбросьте индекс так, чтобы столбцы ['sex','year','name'] больше не являются частью индекса.

источник

2016-02-26 20:01:37

вы можете использовать поворотный стол

df.pivot_table(values = 'number',aggfunc = 'sum',columns = ['sex','year','name']).reset_index().rename(columns={0:'number'})

источник

2016-02-26 20:02:21 Meng

Группу по столбцам, которые вы хотите, сумма number, и придавить многоиндексный:

df.groupby(['sex','year','name'])['number'].sum().reset_index()

В вашем случае столбец state не в сумме, поэтому вы можете сократить до:

df.groupby(['sex','year','name']).sum().reset_index()

источник

2016-02-26 20:10:37

Расчесывания значения dataframe панды на основе другого столбца значений

ответ

Смежные вопросы