У меня есть DataFrame, который был создан группой по с:панда CONCAT массивов на GroupBy
agg_df = df.groupby(['X', 'Y', 'Z']).agg({
'amount':np.sum,
'ID': pd.Series.unique,
})
После того как я применил некоторые фильтрации на agg_df
я хочу Concat идентификаторов
agg_df = agg_df.groupby(['X', 'Y']).agg({ # Z is not in in groupby now
'amount':np.sum,
'ID': pd.Series.unique,
})
Но я получаю ошибка во втором 'ID': pd.Series.unique
:
ValueError: Function does not reduce
в качестве примера dataframe до того я е второй GroupBy является:
|amount| ID |
-----+----+----+------+-------+
X | Y | Z | | |
-----+----+----+------+-------+
a1 | b1 | c1 | 10 | 2 |
| | c2 | 11 | 1 |
a3 | b2 | c3 | 2 | [5,7] |
| | c4 | 7 | 3 |
a5 | b3 | c3 | 12 | [6,3] |
| | c5 | 17 | [3,4] |
a7 | b4 | c6 | 2 | [8,9] |
И ожидаемый результат должен быть
|amount| ID |
-----+----+------+-----------+
X | Y | | |
-----+----+------+-----------+
a1 | b1 | 21 | [2,1] |
a3 | b2 | 9 | [5,7,3] |
a5 | b3 | 29 | [6,3,4] |
a7 | b4 | 2 | [8,9] |
Порядка окончательных идентификаторов не важен.
Редактировать: У меня есть одно решение. Но это не совсем элегантно:
def combine_ids(x):
def asarray(elem):
if isinstance(elem, collections.Iterable):
return np.asarray(list(elem))
return elem
res = np.array([asarray(elem) for elem in x.values])
res = np.unique(np.hstack(res))
return set(res)
agg_df = agg_df.groupby(['X', 'Y']).agg({ # Z is not in in groupby now
'amount':np.sum,
'ID': combine_ids,
})
Edit2: Еще одно решение, которое работает в моем случае:
combine_ids = lambda x: set(np.hstack(x.values))
Edit3: кажется, что это не возможно, чтобы избежать set()
, как в результате реализации реализации функции агрегации Pandas. Подробности в https://stackoverflow.com/a/16975602/3142459
Здесь вы можете найти несколько [более рецептов для сплющивания (произвольно глубоко вложенных)) (http://stackoverflow.com/q/2158395/190597). – unutbu
Насколько я знаю, вы не можете вернуть список или массив из вашего метода агрегирования –