Используете нейронную сеть для получения обобщения в высоких состояниях, каковы единицы ввода?Укрепление обучения: Neural Net
Например, если вектор состояния является 1-мерным, скажем, положение на вещественной оси .. будет только один блок ввода? (предоставляется отдельная сеть для каждого действия)
Что делать, если мы хотим одну и ту же нейронную сеть, каждое государство будет иметь свое собственное действие? но если определенные действия возможны только в определенных состояниях, что происходит? сеть больше не подключена полностью? –
Я думаю, что самым простым решением является наличие полностью подключенной сети, и если некоторая комбинация действия состояния невозможна, например, s0 и a2, сеть просто будет аппроксимировать Q (s0, a2) = 0 (предполагая, что начальное Q является ноль и награды являются возможными). Я имею в виду, что политика никогда не выбирает действие a2 в состоянии s0. Возможно, по вашему мнению, может помочь рекламная сетевая архитектура, но я не уверен. –
Благодарим вас за помощь –