reinforcement-learning

0зной

1ответ

У меня возникли проблемы с поиском хорошей функции вознаграждения для проблемы маятника, функция, которую я использую: -x ** 2 + - 0.25 * (xdot ** 2) , которая является квадратичной ошибка сверху. с x

4зной

1ответ

NEAT vs Reinforcement Learning

Насколько я знаю, NEAT (нейроэволюция дополняющих топологий) - это алгоритм, который использует концепцию эволюции для обучения нейронной сети. С другой стороны, обучение усилению - это тип машинного

1зной

1ответ

ε-жадная политика с уменьшающейся скоростью исследования

Я хочу реализовать ε-жадную политику выбора политики в Q-learning. Здесь многие люди использовали, уравнение для уменьшения скорости разведки, ɛ = е^(- En) п = возраст агента E = эксплуатация параметр

10зной

1ответ

Как сделать softmax работать с градиентом политики?

Я пытаюсь изменить код Карпаты, чтобы он работал с функцией softmax, чтобы я мог использовать его для игры с более чем двумя действиями. Однако я не могу заставить его работать. Может кто-нибудь помоч

0зной

1ответ

Какова лучшая объектная функция задачи CartPole?

Я занимаюсь политическим градиентом, и я пытаюсь выяснить, что является лучшей целевой функцией для задачи. Задачей является открытая ai CartPole-v0 среда, в которой агент получает вознаграждение 1 за

0зной

1ответ

Speedy Q-Learning

Я прочитал на википедии https://en.wikipedia.org/wiki/Q-learning Q-обучения могут страдать от медленной скорости сходимости, особенно когда коэффициент дисконтирования {\ displaystyle \ Gamma} \ гамма

1зной

1ответ

Последовательность с максимальным счетом?

скажем, что у меня есть n-состояния S = {s1, s2, s3, ..... sn}, и у меня есть оценка для каждого перехода, т. Е. T-матрица f.e. s1-> s5 = 0,3, s4-> s3 = 0,7, .... и т. д. Какой алгоритм или процедура

2зной

1ответ

Нейронная сеть для tic-tac-toe

Я пишу нейронную сеть, которая может играть в tic-tac-toe. Сеть имеет 9 входных нейронов, которые описывают состояние платы (1 - для сетевых перемещений, 1,5 - для противников, 0 - для пустых ячеек) и

0зной

1ответ

Как создать узел начального состояния домена графа в Burlap?

https://classroom.udacity.com/courses/ud600/lessons/3780788560/concepts/40374085350923 В приведенной выше ссылке он ссылается, что для того, чтобы создать начальное состояние домена графа выполнить эт

1зной

2ответ

Отказоустойчивость улучшает модели даже при доступе к бесконечным данным?

Насколько хорошо поняты руководящие принципы, когда следует использовать исключение или просто получить больше данных? Я раньше понимал, что, учитывая достаточные данные, не хотелось бы использовать в