Сверточные нейронные сети (например, стандартные сигмовидные нейронные сети) страдают от проблемы исчезающего градиента. Наиболее рекомендуемые подходы к преодолению исчезающих проблем градиента:
- Поэтажная перед тренировкой
- Выбора функции активации
Вы можете увидеть, что состояние дел в данной области техники глубокие нейронное сеть для проблемы компьютерного зрения (например, победители ImageNet) использовали сверточные слои в качестве первых нескольких слоев своей сети, но это не ключ к решению исчезающего градиента. Ключ обычно тренирует сеть жадно по слоям. Конечно, использование сверточных слоев имеет несколько других важных преимуществ. Особенно в случае проблем с изображением, когда размер ввода является большим (пиксели изображения), рекомендуется использовать сверточные слои для первых слоев, поскольку они имеют меньше параметров, чем полностью связанные слои, и вы не получаете миллиарды параметров для первый слой (который сделает вашу сеть подверженной переобучению).
Однако было показано (например, this paper) для нескольких задач, которые с использованием Rectified linear units облегчают проблему исчезновения градиентов (в отличие от обычных сигмовидных функций).
Да, я читал где-то еще, что выпрямленные Линейные Units свободны от исчезающей проблемы градиента. Я знаю, что автокодеры и болтцманские машины обучаются жадным послойным способом. То же самое делается для сверточных нейронных сетей? – Roy
ReLUs не полностью свободны от проблемы с исчезновением градиента, но у них меньше этой проблемы. Можно также выполнить жадные слоистые предварительные тренировки в Свертонных сетях. Он может быть неконтролируемым, как автокодеры или контролироваться при подключении уровня к выходам. Я верю в этот документ, который они контролировали до обучения: http://www.cs.toronto.edu/~fritz/absps/imagenet.pdf –
Я снова прочитал статью (в моем последнем комментарии). Было неясно, что они использовали жадную послойную предварительную подготовку. Они просто говорят о предварительной подготовке. На данный момент у меня нет других ссылок для многоуровневой подготовки сверточных сетей, но это можно сделать. –