Какая разница в алгоритме делает это с большой или малой гамма-значением? В моем оптике, если он не равен 0 или 1, он должен работать точно так же. С другой стороны, независимо от того, какую гамму я выбираю, кажется, что Qvalues очень быстро приближаются к нулю (у меня здесь значения порядка 10^-300 только в быстром тесте). Как обычно люди закладывают Qvalues (я замышляю (x, y, best QValue для этого состояния), учитывая эту проблему? Я пытаюсь обойтись с логарифмами, но даже тогда это выглядит неловко.Параметры альфа и гамма в QLearning
Кроме того, Я не понимаю, в чем причина наличия и альфа-параметра в функции обновления Q Learning. Он в основном устанавливает величину обновления, которое мы собираемся сделать для функции значения Q. У меня есть идея, что она обычно уменьшается что интерес к уменьшению с течением времени? Значение обновления в начале должно иметь большее значение, чем 1000 эпизодов позже?
Кроме того, я думал, что хорошая идея для изучения состояния пространства каждый раз, когда агент не хочет делать жадные действия, будет исследовать любое состояние, которое все еще имеет zer o QValue (это означает, по крайней мере, в большинстве случаев, состояние, которое никогда не было сделано), но я не вижу, что это упоминается в какой-либо литературе. Есть ли недостатки в этом? Я знаю, что это нельзя использовать с (по крайней мере некоторыми) функциями обобщения.
Другая идея заключалась бы в том, чтобы сохранить таблицу посещенных состояний/действий и попытаться выполнить действия, которые были опробованы меньше времени в этом состоянии. Конечно, это можно сделать только в относительно небольших государственных пространствах (в моем случае это определенно возможно).
Третья идея в конце процесса исследования заключается в том, чтобы смотреть не только на выбранное действие, ищущее лучшие qvalues, но и заглядывать во все возможные действия и это состояние, а затем в другие из этого состояния и так далее ,
Я знаю, что эти вопросы не связаны друг с другом, но я хотел бы услышать мнения людей, которые раньше работали с этим и (возможно) боролись с некоторыми из них.
Какова была политика? В чем проблема? Каковы состояния? Что мотивирует работу? Какой код вы использовали? Вы использовали справочную проблему, чтобы показать, что ваш код работает? – EngrStudent