Ссылаясь на этот ответ о выборе числа скрытых слоев и узлов в NN: https://stackoverflow.com/a/10568938/2265724
Пост предлагает добавить количество скрытых блоков, пока ошибка обобщения не начнет возрастать.
Но моя проблема - скорость обучения. Учитывая значение для числа скрытой единицы (т. Е. Одна точка данных на графике или одна конкретная архитектура, например, скажем, 10 скрытых единиц), как я могу установить скорость обучения и сколько эпох тренироваться?
1. используйте фиксированную скорость обучения (после того, как она сходится, то есть затраты снижаются) и выполняются в течение n эпох или до тех пор, пока плавающие (или валидационные ошибки) плагины (если они действительно падают с хорошей асимптотикой)
2. as в 1 с ранней остановкой
3. как в 1 или 2, но при попытке разных скоростей обучения в определенном (линейном или логарифмическом диапазоне)
4. как в 3, включая распад скорости обучения
5. как в 3 или 4, в том числе распад массы в качестве регуляризации или, возможно, лучший отказкак установить скорость обучения для обучения нейронной сети
Число параметров увеличивается от 1 до 5. 1 является самым быстрым, но не кажется удовлетворительным (почему бы не попробовать другую обучающую крысу эс?). 3-5 занимают много времени. Потому что, если я не счастлив, мне нужно попробовать другую архитектуру, увеличив количество скрытых единиц. И повторяйте до тех пор, пока не будет получен график, показанный в сообщении.
Я правильно понимаю и практикую это?
Итак, вы говорите, что скорость обучения должна быть переделана, например, вариант 1 или 2 выше не является удовлетворительным. Затем, сколько возиться, т. Е. Сколько n очков попробовать, скажем в [0.001,1]. В моей проблеме n = 10 займет несколько дней. Я видел бумаги, в которых говорилось: «... мы тренировали нашу нервную сеть с частотой обучения = 0,01 ...», неясно, сколько из них они делали. – ng0323
В моих собственных исследованиях и публикациях я, как правило, возился с параметрами нейронной сети, а затем сообщал об оптимальных условиях в исследовательской работе. Эти параметры были оценены и обсуждены в моих диссертационных исследованиях, однако в публикациях они не содержались. Это не означает, что в настоящее время доступны более динамические модели, но прошлый опыт показал корреляцию между не только скоростью обучения и ошибкой обобщения, но и другими параметрами нейронной сети. Я обычно применял процесс номер 3 (линейный), который может занять время в зависимости от количества тестов. –