Я пытаюсь создать проблему как проблему обучения подкреплению. Моя трудность заключается в том, что состояние, которое агент вносит в случайное изменение. Они должны просто выбрать действие в государстве, в котором они находятся. Я хочу изучить соответствующие действия для всех государств на основе вознаграждения, которое они получают за выполнение действий.Укрепление обучения без состояния преемника
Вопрос:
Является ли это специфический тип проблемы RL? Если состояние преемника отсутствует, так как бы вычислить значение состояния?