Во-первых, вы, вероятно, понимают, что в каждом слое, мы имеем n x m
параметры (или веса), который должен быть выучен, формируя таким образом 2-й матрицы.
n is the number of nodes in the current layer plus 1 (for bias)
m is the number of nodes in the previous layer.
Мы имеем n x m
параметры, потому что есть одно соединение между любыми двумя узлами между предыдущим и текущим слоем.
Я уверен, что Delta (большая дельта) на слое L используется для накопления частичных производных терминов для каждого параметра в слое L. Таким образом, у вас также есть 2D-матрица Delta на каждом слое. Чтобы обновить I-й строки (I-го узла в текущем слое) и J-го столбца (J-го узла в предыдущем слое) матрицы,
D_(i,j) = D_(i,j) + a_j * delta_i
note a_j is the activation from the j-th node in previous layer,
delta_i is the error of the i-th node of the current layer
so we accumulate the error proportional to their activation weight.
Таким образом, чтобы ответить на ваш вопрос , Delta должна быть матрицей.
любая ссылка для формулы? – greeness
@greeness см. Обновление –