2016-07-01 5 views
0

Используете нейронную сеть для получения обобщения в высоких состояниях, каковы единицы ввода?Укрепление обучения: Neural Net

Например, если вектор состояния является 1-мерным, скажем, положение на вещественной оси .. будет только один блок ввода? (предоставляется отдельная сеть для каждого действия)

ответ

0

Да, по крайней мере, если вы используете алгоритм, аналогичный Q-learning или Sarsa, где аппроксиматор функции должен изучить Q-функцию Q(s,a). В вашем случае, если вы используете одну нейронную сеть для каждого действия, сеть должна аппроксимировать функцию Q(s). И если, кроме того, состояние имеет размерность, то для сети потребуется только один входной нейрон.

+0

Что делать, если мы хотим одну и ту же нейронную сеть, каждое государство будет иметь свое собственное действие? но если определенные действия возможны только в определенных состояниях, что происходит? сеть больше не подключена полностью? –

+0

Я думаю, что самым простым решением является наличие полностью подключенной сети, и если некоторая комбинация действия состояния невозможна, например, s0 и a2, сеть просто будет аппроксимировать Q (s0, a2) = 0 (предполагая, что начальное Q является ноль и награды являются возможными). Я имею в виду, что политика никогда не выбирает действие a2 в состоянии s0. Возможно, по вашему мнению, может помочь рекламная сетевая архитектура, но я не уверен. –

+1

Благодарим вас за помощь –

Смежные вопросы