Обучение агента pacman с использованием любого управляемого алгоритма обучения

Я создал простую игру pacman (без таблеток энергии) и обучил ее с помощью алгоритма Q Learning. Теперь я думаю об обучении, используя некоторый контролируемый алгоритм обучения. Я мог бы создать набор данных, собирая информацию о состоянии, а затем сохраняя его против действия, предпринятого каким-то человеческим игроком, а затем обучая его классификатор. Мой вопрос: я иду в правильное направление и является ли это правильным подходом, чтобы заставить пакмана двигаться вдоль лабиринта, так как у него нет системы вознаграждения?Обучение агента pacman с использованием любого управляемого алгоритма обучения

источник

2015-08-23 kenway

Что вы бы описали как государство? Наблюдаемое обучение - это обобщение. Вы определяете некоторую параметризованную модель (например, нейронную сеть), а затем изучаете/оцениваете параметры (например, веса) из своих данных. Затем вы можете использовать эту модель для прогнозирования чего-то.

Если у вас есть конечный список состояний (как вы, вероятно, имели с Q-Learning), и для каждого состояния есть только один «правильный» выбор (что говорит человеческий учитель). Тогда предсказать нечего. Нет никакой «оси, по которой вы можете обобщить». Вам нужна только простая справочная таблица и очень терпеливый человек, чтобы заполнить все это.

Если вы хотите применить контролируемое обучение, вам необходимо внести некоторые предварительные знания. Вам нужно иметь какую-то меру подобия (например, входы/выходы с реальным значением - те, которые имеют присущее сходство для почти идентичных значений) или создают несколько экземпляров чего-то.

Например, вы можете использовать сетку 3x3 вокруг плеера в качестве входного сигнала и прогнозировать вероятность того, что игрок-человек будет двигаться вверх/вниз/влево/вправо в этой ситуации. Затем вы могли бы попытаться подражать человеку, выбрав случайные движения с прогнозируемой вероятностью. Очевидно, что этот подход не будет полностью перемещать pac-man, если вы не используете очень большую сетку (например, 20x20), после чего вы практически полностью заполняете их и нули в простой справочной таблице.

источник

2015-08-23 22:02:43 maxy

Обучение агента pacman с использованием любого управляемого алгоритма обучения

ответ

Смежные вопросы