SGD мини-партии - все одинакового размера?

Алгоритмы стохастического градиента с мини-партиями обычно используют размер мини-партий или считаются параметром.SGD мини-партии - все одинакового размера?

Теперь, что мне интересно, все мини-партии должны быть одинакового размера?

Возьмем, например, обучающие данные MNIST (60k подготовки изображений) и размер мини-партия 70.

Если мы будем в простом цикле, что дает нам 857 mini-batches of size 70 (as specified) and one mini-batch of size 10.

сейчас , даже имеет значение, что (используя этот подход) одна мини-партия будет меньше остальных (худший сценарий здесь: мини-партия размером 1)? Будет ли это сильно влиять на веса и предвзятости, которые наша сеть узнала практически во всех своих «тренировках»?

источник

2016-06-06 Kamil Solecki

Нет, мини-партии не должны быть одинакового размера. Они обычно являются постоянными по соображениям эффективности (вам не нужно перераспределять тензоры памяти/изменения размера). На практике вы можете даже пробовать размер партии на каждой итерации.

Однако размер партии имеет значение. Трудно сказать, какой из них лучше, но использование меньших/больших размеров партии может привести к разным решениям (и всегда - разной скорости конвергенции). Это эффект работы с большим количеством стохастических движений (небольшая партия) против гладких обновлений (хорошие градиентные оценки). В частности, для одновременного использования обоих эффектов можно использовать стохастический размер партии с некоторым предопределенным распределением размеров (но время, затрачиваемое на установку этого распределения, может не стоить)

источник

2016-06-06 21:46:22 lejlot

Отлично, спасибо. Еще один вопрос, хотя я не мог найти ответа на вопрос: может ли вы примерять мини-партии улучшить результат, если данные обучения, из которых я получаю свои партии, перетасовываются каждую эпоху? (конечно, я не говорю о случайном улучшении: D) –

Не следует. Предположим, что ваши мини-партии ** одинаково ** отбираются. Единственное, что может случиться, это то, что вы можете ** уменьшить ** результаты путем неправильной выборки (например, неслучайным образом). Точно так же трудно анализировать, как классические методы обучения ведут себя в состязательности (когда вы изменяете выборку, чтобы сосредоточиться на более сложных примерах и т. Д.), - то это больше о эвристике (отсутствие теоретических результатов). – lejlot

Хорошо, я понимаю. Спасибо вам за понимание. –

SGD мини-партии - все одинакового размера?

ответ

Смежные вопросы