Я понимаю, что в SGD мы обновляем весы w.r.t. на один пример обучения, такие как:Линейная регрессия с правилом обновления Stochastic Gradient Descent (SGD)
for i in range(m):
weights = weights + (alpha * gradient) # for each i in m
ли мы затем вычислить новую среднеквадратическую ошибку (моя стоимость функции) на основе этого одного обновления или после целой пробегают обучающий набор?
Так что: Для каждого г в обучающем наборе: 1. Обновление веса WRT на D 2. Compute новая ошибка – indecisivecoder
Звуки правильно :) Вы можете запустить через обучение по мере необходимости, как много раз установить. Обратите внимание, что вам может потребоваться перетасовать тренировочный набор, чтобы избежать колебания сигнала ошибки. – casper
Вы вычисляете функцию потерь w.r.t на эту единую точку данных или w.r.t. весь набор тренировок? – indecisivecoder