Интересно, какой лучший способ заменить строки, которые не удовлетворяют определенному условию нулями для разреженных матриц. Например (я использую простые массивы для иллюстрации):Задайте строки матрицы scipy.sparse, которые удовлетворяют определенным условиям для нулей
Я хочу заменить каждую строку, сумма которых больше, чем 10 с рядом нулей
a = np.array([[0,0,0,1,1],
[1,2,0,0,0],
[6,7,4,1,0], # sum > 10
[0,1,1,0,1],
[7,3,2,2,8], # sum > 10
[0,1,0,1,2]])
Я хочу, чтобы заменить а [2] и [ 4] с нулями, так что мой вывод должен выглядеть следующим образом:
array([[0, 0, 0, 1, 1],
[1, 2, 0, 0, 0],
[0, 0, 0, 0, 0],
[0, 1, 1, 0, 1],
[0, 0, 0, 0, 0],
[0, 1, 0, 1, 2]])
Это довольно прямо вперед для плотных матриц:
row_sum = a.sum(axis=1)
to_keep = row_sum >= 10
a[to_keep] = np.zeros(a.shape[1])
Однако, когда я пытаюсь:
s = sparse.csr_matrix(a)
s[to_keep, :] = np.zeros(a.shape[1])
Я получаю эту ошибку:
raise NotImplementedError("Fancy indexing in assignment not "
NotImplementedError: Fancy indexing in assignment not supported for csr matrices.
Следовательно, мне нужно другое решение для разреженных матриц. Я пришел с этим:
def zero_out_unfit_rows(s_mat, limit_row_sum):
row_sum = s_mat.sum(axis=1).T.A[0]
to_keep = row_sum <= limit_row_sum
to_keep = to_keep.astype('int8')
temp_diag = get_sparse_diag_mat(to_keep)
return temp_diag * s_mat
def get_sparse_diag_mat(my_diag):
N = len(my_diag)
my_diags = my_diag[np.newaxis, :]
return sparse.dia_matrix((my_diags, [0]), shape=(N,N))
Это основывается на том факте, что, если мы устанавливаем 2 и 4 элементы диагонали единичной матрицы к нулю, то строки из предварительно умноженного матрицы устанавливаются в нуль.
Однако, я чувствую, что есть лучшее, более scipynic-решение. Есть ли лучшее решение?