Алгоритмы стохастического градиента с мини-партиями обычно используют размер мини-партий или считаются параметром.SGD мини-партии - все одинакового размера?
Теперь, что мне интересно, все мини-партии должны быть одинакового размера?
Возьмем, например, обучающие данные MNIST (60k подготовки изображений) и размер мини-партия 70.
Если мы будем в простом цикле, что дает нам 857 mini-batches of size 70 (as specified) and one mini-batch of size 10.
сейчас , даже имеет значение, что (используя этот подход) одна мини-партия будет меньше остальных (худший сценарий здесь: мини-партия размером 1)? Будет ли это сильно влиять на веса и предвзятости, которые наша сеть узнала практически во всех своих «тренировках»?
Отлично, спасибо. Еще один вопрос, хотя я не мог найти ответа на вопрос: может ли вы примерять мини-партии улучшить результат, если данные обучения, из которых я получаю свои партии, перетасовываются каждую эпоху? (конечно, я не говорю о случайном улучшении: D) –
Не следует. Предположим, что ваши мини-партии ** одинаково ** отбираются. Единственное, что может случиться, это то, что вы можете ** уменьшить ** результаты путем неправильной выборки (например, неслучайным образом). Точно так же трудно анализировать, как классические методы обучения ведут себя в состязательности (когда вы изменяете выборку, чтобы сосредоточиться на более сложных примерах и т. Д.), - то это больше о эвристике (отсутствие теоретических результатов). – lejlot
Хорошо, я понимаю. Спасибо вам за понимание. –