Я хочу внедрить обучение арматуры, чтобы связать четырех агентов. Я не уверен, как это сделать и как это должно выглядеть. Я знаком с теоретическими аспектами обучения подкреплению, но не знаю, как они должны быть реализованы.Хотите внедрить усиление обучения подключить четыре агента
Как это сделать? Должен ли я использовать TD (лямбда) или Q-обучение, и как деревья MinMax приходят к этому? Как работают мои функции Q и V (качество действия и значение состояния). Как мне забить эти вещи? Какова моя базовая политика, которую я улучшаю, и какова моя модель? Другое дело, как мне сохранить состояния или состоянияXactions (в зависимости от алгоритма обучения). Должен ли я использовать нейронные сети или нет? И если да, то как?
Я использую JAVA.
Спасибо.
Я не уверен, что кто-то может ответить на это, просто не говоря вам, чтобы вы делали это так, как они это сделали. Я начну с того, чего я пытаюсь достичь, и что я пытаюсь изучить, и, надеюсь, эти решения станут более ясными. –
Слух, как кто-то это сделает, это очень поможет – Vadiklk
Так как вы делаете это ради интереса, я бы использовал самый простой и интересный подход. Мне нравятся нейронные сети, поэтому я бы попробовал, но чтобы действительно учиться, вы должны исследовать каждую из этих тем (которые являются кандидатскими докторантами сами по себе) и посмотреть, насколько легко или эффективно каждый подход. –