Я строю scipy
разреженная матрица S
с sklearn.preprocessing.OneHotEncoder()
. Матрица S
имеет 10^6 строк для 500 столбцов.groupby на разреженной матрице с scipy
У меня также есть numpy
массив A
с 10^6 значений следующим образом:
A = [1,1,2,2,2,3,4,5,6,6,7,8,8,8,...]
Я хочу сделать группу, на разреженную матрицу S
следующих групп, написанных в массиве A
и использовать numpy.sum()
как функция агрегации.
Как я могу это сделать? Конечно, мне все нужно поместиться в память, поэтому я вынужден использовать разреженную матрицу для S
.
Продемонстрируйте, что вы хотите сделать с помощью пары небольших массивов. Тогда мы можем думать о том, как его можно адаптировать к разреженной. – hpaulj