2013-09-10 4 views
1

Я пытаюсь создать проблему как проблему обучения подкреплению. Моя трудность заключается в том, что состояние, которое агент вносит в случайное изменение. Они должны просто выбрать действие в государстве, в котором они находятся. Я хочу изучить соответствующие действия для всех государств на основе вознаграждения, которое они получают за выполнение действий.Укрепление обучения без состояния преемника

Вопрос:

Является ли это специфический тип проблемы RL? Если состояние преемника отсутствует, так как бы вычислить значение состояния?

ответ

2

Если состояние действительно изменяется случайным образом, если нет никакой связи между действием и следующим состоянием, тогда все, что вы можете сделать, это запись и среднее вознаграждение за каждое действие и каждое состояние.

0

Итак, я обнаружил, что это будет называться проблемой обучения усилению Монте-Карло. Вместо того, чтобы связывать значение с состоянием, основанным на значении состояний, на которое можно перейти, значение связано с состоянием в соответствии с результатом политики, учитывая это состояние напрямую. Это полезно в тех случаях, когда динамика функции перехода состояния неизвестна или сильно стохастична и трудно моделируется.

https://en.wikipedia.org/wiki/Reinforcement_learning

Смежные вопросы