5

Какая разница в алгоритме делает это с большой или малой гамма-значением? В моем оптике, если он не равен 0 или 1, он должен работать точно так же. С другой стороны, независимо от того, какую гамму я выбираю, кажется, что Qvalues ​​очень быстро приближаются к нулю (у меня здесь значения порядка 10^-300 только в быстром тесте). Как обычно люди закладывают Qvalues ​​(я замышляю (x, y, best QValue для этого состояния), учитывая эту проблему? Я пытаюсь обойтись с логарифмами, но даже тогда это выглядит неловко.Параметры альфа и гамма в QLearning

Кроме того, Я не понимаю, в чем причина наличия и альфа-параметра в функции обновления Q Learning. Он в основном устанавливает величину обновления, которое мы собираемся сделать для функции значения Q. У меня есть идея, что она обычно уменьшается что интерес к уменьшению с течением времени? Значение обновления в начале должно иметь большее значение, чем 1000 эпизодов позже?

Кроме того, я думал, что хорошая идея для изучения состояния пространства каждый раз, когда агент не хочет делать жадные действия, будет исследовать любое состояние, которое все еще имеет zer o QValue (это означает, по крайней мере, в большинстве случаев, состояние, которое никогда не было сделано), но я не вижу, что это упоминается в какой-либо литературе. Есть ли недостатки в этом? Я знаю, что это нельзя использовать с (по крайней мере некоторыми) функциями обобщения.

Другая идея заключалась бы в том, чтобы сохранить таблицу посещенных состояний/действий и попытаться выполнить действия, которые были опробованы меньше времени в этом состоянии. Конечно, это можно сделать только в относительно небольших государственных пространствах (в моем случае это определенно возможно).

Третья идея в конце процесса исследования заключается в том, чтобы смотреть не только на выбранное действие, ищущее лучшие qvalues, но и заглядывать во все возможные действия и это состояние, а затем в другие из этого состояния и так далее ,

Я знаю, что эти вопросы не связаны друг с другом, но я хотел бы услышать мнения людей, которые раньше работали с этим и (возможно) боролись с некоторыми из них.

+0

Какова была политика? В чем проблема? Каковы состояния? Что мотивирует работу? Какой код вы использовали? Вы использовали справочную проблему, чтобы показать, что ваш код работает? – EngrStudent

ответ

-2

Я не работал с системами так же, как это раньше, так что я не знаю, насколько полезным я могу быть, но ...

Гамма является мерой тенденции агента с нетерпением ожидает будущих наград , Чем меньше это, тем больше агент будет стремиться к действию с наибольшей наградой, независимо от результирующего состояния. Агенты с большей гаммой будут изучать длинные пути к большим наградам. Что касается всех значений Q, приближающихся к нулю, вы пробовали с очень простой картой состояния (скажем, одним состоянием и двумя действиями) с гамма = 0? Это должно быстро приближаться к Q = вознаграждение.

Идея уменьшения альфа-эффекта заключается в том, чтобы ослабить колебания в значениях Q, чтобы агент мог оседать в устойчивом узоре после дикой юности.

Изучение государственного пространства? Почему бы просто не перебрать его, попросить агента все? Нет никакой причины, чтобы агент действительно следовал курсу действий в своем обучении - если это не точка вашего моделирования. Если идея состоит в том, чтобы найти оптимальный шаблон поведения, настройте все Q, а не только самые высокие по пути.

+0

Точка в Q-Learning - это не перебирать все пространство. Это как можно быстрее узнать (т. Е. Иметь гигантские пространства состояний, быстро изучать, как их достаточно хорошо изучить для данной задачи). Если бы идеатия перебирала его, то я бы использовал обычную поисковую систему (сначала вдох, глубокий поиск и т. Д.). Кроме того, я не понимаю, в чем смысл установки гаммы на нуль. Это будет делать только действия, которые приводят к обновлению цели. Все остальные будут равны нулю. –

8

От армирующей наклоняясь мастера кандидата:

Альфа скорость обучения. Если функция вознаграждения или перехода является стохастической (случайной), то альфа должна со временем меняться, приближаясь к нулю на бесконечности. Это связано с приближением ожидаемого результата внутреннего продукта (T (переход) * R (вознаграждение)), когда один из двух или обоих имеет случайное поведение.

Этот факт важно отметить.

Gamma - это ценность будущей награды. Это может немного повлиять на обучение и может быть динамическим или статическим значением. Если он равен единице, агент оценивает будущую награду JUST AS MUCH как текущую награду. Это означает, что в десяти действиях, если агент делает что-то хорошее, это JUST AS VALUABLE, как прямое действие этого действия. Таким образом, обучение не работает на этом уровне при высоких значениях гаммы.

И наоборот, гамма нуля приведет к тому, что агент получит только немедленные вознаграждения, которые работают только с очень подробными функциями вознаграждения.

Кроме того, что касается поведения разведки ... на самом деле существует ТОНН литературы. Все ваши идеи, на 100%, были опробованы. Я бы порекомендовал более подробный поиск и даже начал поисковую теорию принятия решений и «Улучшение политики».

Просто добавьте примечание к Alpha: представьте, что у вас есть функция вознаграждения, которая выплескивает 1 или ноль, для определенного действия action Combo SA. Теперь каждый раз, когда вы выполняете SA, вы получите 1 или 0. Если вы сохраните альфа как 1, вы получите Q-значения 1 или ноль. Если оно равно 0.5, вы получите значения +0.5 или 0, и функция всегда будет колебаться между двумя значениями навсегда. Однако, если каждый раз, когда вы уменьшаете альфа на 50 процентов, вы получаете такие значения. (при условии, что вознаграждение получено 1,0,1,0, ...). Ваши Q-значения в конечном итоге будут составлять 1,0,5,0,75,0,9,0,8, .... И в итоге сходятся примерно на 0,5. На бесконечности это будет 0,5, что является ожидаемым вознаграждением в вероятностном смысле.

+0

Не могли бы вы добавить ссылки? – EngrStudent

0

Какая разница в алгоритме делает это с большим или малым гамма-значением?

gammas должен соответствовать размеру пространства для наблюдения: вы должны использовать большие гамма (т.е. ближе к 1) для больших пространств состояний и меньшие гамма для меньших пространств.

Один из способов думать о гамма - это показатель затухания вознаграждения из окончательного успешного состояния.