2014-04-19 2 views
2

Я должен решить эту проблему с Q-обучением. Ну, на самом деле я должен оценить политику на основе Q-обучения.Q-обучение без окончательного состояния даже возможно?

Я туристический менеджер.

У меня есть n отелей, каждый из которых может содержать различное количество человек.

для каждого человека, которого я положил в отель. Я получаю вознаграждение, исходя из того, какую комнату я выбрал.

Если я хочу, я также могу убить человека, поэтому он не в отеле, но он дает мне другую награду. (Хорошо, это шутка ... но это означает, что у меня может быть сам переход, поэтому число людей в моих комнатах не меняется после этого действия).

  • мое государство - это вектор, содержащий количество лиц в каждом отеле.

  • мое действие - вектор нулей и единиц, который говорит мне, где я должен
    положить нового человека.

  • моя наградная матрица формируется за вознаграждение, которое я получаю за каждый переход
    между состояниями (даже самопереходом).

сейчас, так как я могу получить неограниченное количество людей (т. Е. Я могу заполнить его, но я могу продолжать их убивать), как я могу построить Q-матрицу? без Q-матрицы я не могу получить политику, и поэтому я не могу ее оценить ...

Что я вижу неправильно? следует ли выбрать случайное состояние как окончательное? Я пропустил этот момент?

+0

Таким образом, матрица Q может быть матрицей с размером [num_states x num_actions]. Что вы пытаетесь узнать? – NKN

+0

@NKN моя политика хочет максимизировать доходы с течением времени. Q строит, как вы говорите – user3149593

+1

, если у вас есть Q-матрица, и вы запускаете Q-обучение, и, наконец, вы получите Q_optimal, скажем, Q *. После слияния алгоритма, это политика argmax_ {action} (Q *). – NKN

ответ

1

Проблемы с RL не нуждаются в конечном состоянии как таковом. Им нужны наградные государства. Так что, пока у вас есть какие-то награды, вы, как мне кажется, хороши.

У меня не так много XP с проблемами RL, как этот. Как отмечает комментатор, это звучит как действительно огромное пространство состояний. Если вам удобнее использовать дискретный подход, вы бы хорошо начали бы и узнали бы о своей проблеме, ограничив объем (конечное число людей и гостиницы/комнаты) проблемы и превратив Q-обучение в меньшую матрицу состояния ,

ИЛИ, вы можете перейти прямо в метод, который может обрабатывать бесконечное пространство состояний, как нейронную сеть.

В моем опыте, если у вас есть терпение сначала попробовать меньшую проблему, вы будете лучше подготовлены к решению большего.

+0

скажем, у меня есть 3 отеля, каждый из которых вмещает 2 человека. Мое пространство ограничено, так же как и мое пространство действия ... Я мог бы построить Q легко, если бы у меня было конечное состояние, я думаю, я должен взять «все гостиницы в полном объеме» в качестве окончательного? и назначить вознаграждение каждому государству, принимая во внимание самолечение? Потому что, не выбирая состояние как окончательное, алгоритм не так хорош, как вы сказали. – user3149593

+1

Может быть, я не понимаю Что вы подразумеваете под «конечным состоянием?» – danelliottster

+0

, здесь здесь называется «состояние цели». Http://mnemstudio.org/path-finding-q-learning.htm. Я - usi Эта процедура для построения моей Q-матрицы и без чего-либо, помеченного как состояние цели, не может выйти из цикла. – user3149593

1

Возможно, это не ответ на вопрос «возможно ли это?», Но ... Читайте о r-learning, чтобы решить эту конкретную проблему, вы можете изучить не только Q- или V-функцию, но и rho - ожидаемая награда со временем. Совместное изучение Q и rho приводит к лучшей стратегии.

+1

Это выглядит и выглядит скорее как комментарий, чем ответ. –

+0

да, но я до сих пор не могу комментировать вопросы – Spoilt333

+0

диплом бакалавра после того, как я могу сказать: да, возможно Q-обучение без конечного состояния. просто используйте терминальное условие последним, даже если вам нужно проанализировать, в нашем примере последний человек, входящий в комплект обучения. после этого вы можете построить политику Q *, решить, если она улучшится даже в тестовом наборе или использовать ее как статическую политику, и вам хорошо идти. @danelliottster объяснил это довольно хорошо. – user3149593

1

Этот вопрос старый, но я думаю, заслуживает ответа.

Одна из проблем заключается в том, что необязательно понятие эпизода и соответствующее состояние терминала. Скорее, это постоянная проблема. Ваша цель - максимизировать свою награду навсегда в будущем. В этом случае коэффициент гамма скидок меньше, чем тот, который существенно определяет, как далеко вы заглядываете в будущее на каждом шаге.Возврат определяется как совокупная дисконтированная сумма будущих вознаграждений. Для эпизодических проблем обычно используется скидка 1, при этом возвращение является суммарной суммой будущих наград до тех пор, пока не будет достигнут конец эпизода.

Чтобы узнать оптимальное значение Q, которое является ожидаемым возвратом для достижения оптимальной политики, вы должны иметь возможность выполнять внеполитические обновления Q-обучения. Если вы используете примеры переходов для получения обновлений Q-обучения, вам нужно будет указать политику поведения, которая принимает действия в среде, чтобы получить эти образцы. Чтобы больше узнать о Q-обучении, вы должны прочитать стандартный вводный учебник RL: «Усиление обучения: введение», Саттон и Барто.

0

Чтобы повторить вышеуказанный отклик, с бесконечным пространством состояния, вам определенно нужно рассмотреть какое-то обобщение для вашей функции Q. Вы получите больше преимуществ от вашего ответа функции Q в бесконечном пространстве. Вы можете экспериментировать с несколькими различными аппроксимациями функций, будь то простая линейная регрессия или нейронная сеть.

Как и Марта, вам нужно иметь гамму, меньшую, чем одна, для учета бесконечного горизонта. В противном случае вы бы попытались определить соответствие N политик, равных бесконечности, что означает, что вы не сможете измерить оптимальную политику.

Главное, что я хотел добавить сюда, хотя для тех, кто читает это позже, важно значение формирования награды. В бесконечной задаче, где нет этого окончательного большого вознаграждения, могут возникать неоптимальные циклы вознаграждения, когда агент «застревает», поскольку, возможно, какое-то государство имеет награду выше любого из своих соседей на конечном горизонте (который был определен гамма). Чтобы учесть это, вы хотите убедиться, что вы производите наказание агента за посадку в одном и том же состоянии несколько раз, чтобы избежать этих субоптимальных циклов. Очевидно, что разведка также чрезвычайно важна, и когда проблема бесконечна, потребуется некоторое количество разведки.

Смежные вопросы