2014-12-05 2 views
13

Я изучаю сверточные нейронные сети. Я смущен некоторыми слоями в CNN.ReLu и Dropout в CNN

Относительно ReLu ... Я просто знаю, что это сумма бесконечной логистической функции, но ReLu не подключается к каким-либо верхним уровням. Зачем нам нужен ReLu и как он работает?

Отказ от выпадения ... Как работает выпадение? Я слушал видео-разговор от Г. Хинтона. Он сказал, что есть стратегия, которая просто игнорирует половину узлов, случайным образом, при тренировке весов и уменьшает вес при прогнозировании. Он говорит, что он был вдохновлен случайными лесами и работает точно так же, как вычисление геометрического среднего этих случайно обученных моделей.

Является ли эта стратегия такой же, как отказ?

Может ли кто-нибудь помочь мне решить эту проблему?

+1

Очень хороший ресурс - [CVPR 2014 Tutorial о широкомасштабном визуальном распознавании] (https://sites.google.com/site/lsvrtutorialcvpr14/home/deeplearning) от [Marc'Aurelio Ranzato] (http: /www.cs.toronto.edu/~ranzato/). Он вводит и детализирует обе темы. – deltheil

+0

@ deltheil Прошу прощения, но я ничего не могу найти о выпадении в связанной с вами бумаге. Поиск документа для «dropout» возвращает три вхождения, все три упоминания о том, что здесь выбрано исключение. У вас есть страница nr, где он подробно останавливается? Я уже прочитал его, но ничего не нашел о выпадении – DBX12

ответ

15

РЕЛУ: Функция выпрямителя является функцией активации F (X) = Мах (0, х), которые могут быть использованы нейроны так же, как и любой другой функции активации, узел с помощью функции активации выпрямителя называемый узлом ReLu. Основная причина, по которой он используется, заключается в том, насколько эффективно он может быть вычислен по сравнению с более обычными функциями активации, такими как сигмоидный и гиперболический тангенс, без существенной разницы в точности обобщения. Функция активации выпрямителя используется вместо функции линейной активации, чтобы добавить нелинейность в сеть, иначе сеть могла бы только вычислить линейную функцию.

Отказ: Да, описанная техника аналогична выпадению. Причина, по которой случайное игнорирование узлов является полезной, заключается в том, что она препятствует появлению межзависимых связей между узлами (I.e. узлы не изучают функции, которые полагаются на входные значения с другого узла), что позволяет сети узнать более надежные отношения. Внедрение исключений имеет тот же эффект, что и среднее из комитета сетей, однако стоимость значительно меньше и времени, и времени хранения.

+1

Doese ReLu подключается к верхнему уровню? Я проверяю архитектуру AlexNet для задачи imagenet. Кажется, что ReLu является независимым слоем. Если это так, оно не передает значение верхним уровням. Почему нам нужен этот «неуместный» слой? – user3783676

+3

ReLu - это всего лишь один нейрон, который реализует функцию активации выпрямителя * max (0, n) *, а не совершенно новый слой. Хотя в отчете не указаны точные данные, похоже, что эта функция активации используется на каждом нейроне в сети, как в сверточном, так и полностью связанном слоях. – Hungry

+0

Функция ReLu по-прежнему выглядит как линейная. Способна ли она решать проблемы, а также сигмоиды? – gisek

Смежные вопросы