2015-09-16 2 views
9

У меня есть DataFrame, который был создан группой по с:панда CONCAT массивов на GroupBy

agg_df = df.groupby(['X', 'Y', 'Z']).agg({ 
    'amount':np.sum, 
    'ID': pd.Series.unique, 
}) 

После того как я применил некоторые фильтрации на agg_df я хочу Concat идентификаторов

agg_df = agg_df.groupby(['X', 'Y']).agg({ # Z is not in in groupby now 
    'amount':np.sum, 
    'ID': pd.Series.unique, 
}) 

Но я получаю ошибка во втором 'ID': pd.Series.unique:

ValueError: Function does not reduce 

в качестве примера dataframe до того я е второй GroupBy является:

   |amount| ID | 
-----+----+----+------+-------+ 
    X | Y | Z |  |  | 
-----+----+----+------+-------+ 
    a1 | b1 | c1 | 10 | 2  | 
    | | c2 | 11 | 1  | 
    a3 | b2 | c3 | 2 | [5,7] | 
    | | c4 | 7 | 3  | 
    a5 | b3 | c3 | 12 | [6,3] | 
    | | c5 | 17 | [3,4] | 
    a7 | b4 | c6 | 2 | [8,9] | 

И ожидаемый результат должен быть

  |amount| ID  | 
-----+----+------+-----------+ 
    X | Y |  |   | 
-----+----+------+-----------+ 
    a1 | b1 | 21 | [2,1]  | 
    a3 | b2 | 9 | [5,7,3] | 
    a5 | b3 | 29 | [6,3,4] | 
    a7 | b4 | 2 | [8,9]  | 

Порядка окончательных идентификаторов не важен.

Редактировать: У меня есть одно решение. Но это не совсем элегантно:

def combine_ids(x): 
    def asarray(elem): 
     if isinstance(elem, collections.Iterable): 
     return np.asarray(list(elem)) 
     return elem 

    res = np.array([asarray(elem) for elem in x.values]) 
    res = np.unique(np.hstack(res)) 
    return set(res) 

agg_df = agg_df.groupby(['X', 'Y']).agg({ # Z is not in in groupby now 
    'amount':np.sum, 
    'ID': combine_ids, 
}) 

Edit2: Еще одно решение, которое работает в моем случае:

combine_ids = lambda x: set(np.hstack(x.values)) 

Edit3: кажется, что это не возможно, чтобы избежать set(), как в результате реализации реализации функции агрегации Pandas. Подробности в https://stackoverflow.com/a/16975602/3142459

+0

Здесь вы можете найти несколько [более рецептов для сплющивания (произвольно глубоко вложенных)) (http://stackoverflow.com/q/2158395/190597). – unutbu

+0

Насколько я знаю, вы не можете вернуть список или массив из вашего метода агрегирования –

ответ

2

Если вы отлично с помощью наборов в качестве типа (который я, вероятно, будет), то я бы с:

agg_df = df.groupby(['x','y','z']).agg({ 
    'amount': np.sum, 'id': lambda s: set(s)}) 
agg_df.reset_index().groupby(['x','y']).agg({ 
    'amount': np.sum, 'id': lambda s: set.union(*s)}) 

... который работает для меня. По какой-то причине работает lambda s: set(s), но нет (я предполагаю, что где-то панды не делают правильную утиную печать).

Если данные большая, вы, вероятно, будете хотеть следующий вместо lambda s: set.union(*s):

from functools import reduce 
# can't partial b/c args are positional-only 
def cheaper_set_union(s): 
    return reduce(set.union, s, set()) 
0

Когда функция агрегации возвращает серию, панды не обязательно знать, что вы хотите упакованы в одну ячейку , Как более общее решение, просто явно принуждайте результат к списку.

agg_df = df.groupby(['X', 'Y', 'Z']).agg({ 
    'amount':np.sum, 
    'ID': lambda x: list(x.unique()), 
}) 
Смежные вопросы