2016-11-23 2 views
-1

Я смущен, что использование активации между скрытыми слоями, я знаю, что функция softmax между скрытыми слоями и выходом сжимает вероятности до [0,1], но что такое использование сигмоидной функции между скрытыми слоями? Функция активации глубокого обучения между скрытыми слоями?

ответ

4

Цель состоит в том, чтобы добавить к сети нелинейное поведение, без него количество функций, которые могут быть представлены ниже, и если у вас нет нелинейных функций активации, сеть полностью линейна, что не очень полезно для большинства проблем.

Каждый слой, который добавляет нелинейные активации, также влияет на нелинейное поведение выхода сети. Это одна из причин, по которой добавление большего количества уровней повышает точность, поскольку сеть может лучше представлять различные функции.

+0

Я хотел бы добавить [Универсальная теорема приближения] (https://en.wikipedia.org/wiki/Universal_approximation_theorem), в которой говорится, что нейронная сеть с хотя бы одним (нелинейным) скрытым слоем (бесконечного размера) может аппроксимирует любую функцию. – Lunaweaver

1

1.add нелинейное представление в сети.

2.Пожалуйста, используйте Relu, prelu, lrelu вместо сигмоида, tanh, из-за уменьшения проблемы с исчезновением градиента.

Смежные вопросы