Я должен решить эту проблему с Q-обучением. Ну, на самом деле я должен оценить политику на основе Q-обучения.Q-обучение без окончательного состояния даже возможно?
Я туристический менеджер.
У меня есть n отелей, каждый из которых может содержать различное количество человек.
для каждого человека, которого я положил в отель. Я получаю вознаграждение, исходя из того, какую комнату я выбрал.
Если я хочу, я также могу убить человека, поэтому он не в отеле, но он дает мне другую награду. (Хорошо, это шутка ... но это означает, что у меня может быть сам переход, поэтому число людей в моих комнатах не меняется после этого действия).
мое государство - это вектор, содержащий количество лиц в каждом отеле.
мое действие - вектор нулей и единиц, который говорит мне, где я должен
положить нового человека.- моя наградная матрица формируется за вознаграждение, которое я получаю за каждый переход
между состояниями (даже самопереходом).
сейчас, так как я могу получить неограниченное количество людей (т. Е. Я могу заполнить его, но я могу продолжать их убивать), как я могу построить Q-матрицу? без Q-матрицы я не могу получить политику, и поэтому я не могу ее оценить ...
Что я вижу неправильно? следует ли выбрать случайное состояние как окончательное? Я пропустил этот момент?
Таким образом, матрица Q может быть матрицей с размером [num_states x num_actions]. Что вы пытаетесь узнать? – NKN
@NKN моя политика хочет максимизировать доходы с течением времени. Q строит, как вы говорите – user3149593
, если у вас есть Q-матрица, и вы запускаете Q-обучение, и, наконец, вы получите Q_optimal, скажем, Q *. После слияния алгоритма, это политика argmax_ {action} (Q *). – NKN