Я подумываю реализовать стратегию обучения для различных типов агентов в моей модели. Честно говоря, я до сих пор не знаю, какие вопросы я должен задать сначала или с чего начать.Реализация обучения усилению в NetLogo (обучение в мультиагентных моделях)
У меня есть два типа агентов, которые я хочу, чтобы они учились на опыте, у них есть пул действий, каждый из которых имеет разные награды, основанные на конкретных ситуациях, которые могут произойти. Я новичок в подкрепление методов обучения, поэтому любые предложения о том, какие вопросы я должен спросить себя приветствуется :)
Вот как я иду вперед, чтобы сформулировать свою проблему:
- агенты имеют и они отслеживают несколько вещей, которые важны для них, и эти показатели различны для разных агентов, например, один агент хочет увеличить. Другой хочет B больше A.
- Государства - это точки в жизни агента, которые они Есть несколько вариантов (у меня нет четкого определения для S поскольку они могут произойти несколько раз или вообще не произойти, потому что Агенты перемещаются, и они, возможно, никогда не столкнутся с ситуацией)
- Награда - это увеличение или уменьшение показателя, который агенты могут получить от действия в конкретном Государство и агент не знают, какой будет выигрыш, если он выберет другое действие.
- Коэффициент усиления не является постоянным, состояния не определены четко, и формальный переход одного состояния в другой отсутствует,
- Например, агент может решить поделиться с одним из совместно расположенных агентов (действие 1) или со всеми агентами в одном месте (Действие 2) Если выполняются определенные условия, действие А будет более полезным для этого агента, в то время как в других условиях действие 2 будет иметь более высокую награду; моя проблема в том, что я не видел ни одного примера с неизвестными наградами, так как совместное использование в этом сценарии также зависит от характеристик другого агента (что влияет на условия системы вознаграждения), а в разных состояниях оно будет другим.
В моей модели нет никакой связи между действием и следующим состоянием, и это заставляет меня задаться вопросом, если его хорошо думать о RL в этой ситуации вообще.
Что я хочу оптимизировать здесь, это способность моих агентов лучше рассуждать о текущей ситуации и не только реагировать на их потребности, вызванные их внутренними состояниями. У них есть несколько личностей, которые могут определить свою долгосрочную цель и могут повлиять на их принятие решений в разных ситуациях, но я хочу, чтобы они помнили, какие действия в ситуации помогли им увеличить предпочтительную долгосрочную цель.
Большое спасибо. Поскольку я говорю, что у меня нет четкого определения состояния, моя симуляция связана с социальными взаимообменами, такими как совместное использование и кража или ничего не делая, но все эти действия могут быть недоступны для всех агентов, поскольку некоторые из них, основанные на их внутреннем состоянии, обычно разделяют, а другие воруют, однако для каждого действия существует целый ряд различных действий, например, они могут делиться только с людьми из группы или с внегрупповыми группами, или они могут решить украсть из решение принимало влияние на репутацию и самоудовлетворение агента – Marzy
Ваш ответ очень помогает, так как я новичок в RL, и я не был уверен, какие вопросы я должен задать себе: D – Marzy
Я рад помогает! Что касается доступности действий: доступные действия должны быть полностью определены государством. Помните, что внутренние переменные могут быть включены в состояние. Итак, если агент предрасположен, чтобы не украсть, то эта предрасположенность является частью состояния, и это действие недоступно. Аналогичным образом, предположим, что агент близок к внешнему агенту и, таким образом, может украсть. Это одно состояние. Теперь предположим, что агент близок к агенту внутри группы и поэтому не может украсть. Это другое состояние. Таким образом, государство определяет, какие действия может предпринять агент. –