Я знаю основы нейронных сетей с прямой связью и как их обучать с использованием алгоритма backpropagation, но я ищу алгоритм, который я могу использовать для обучения ANN онлайн с обучением по усилению.Обучение нейронной сети с помощью обучения усилению
Например, проблема cart pole swing up является проблемой, которую я хотел бы решить с помощью ANN. В этом случае я не знаю, что нужно сделать для управления маятником, я знаю только, насколько я близок к идеальной позиции. Мне нужно, чтобы ANN учился на основе вознаграждения и наказания. Таким образом, контролируемое обучение не является вариантом.
Другая ситуация - это как-то вроде snake game, где обратная связь задерживается и ограничивается целями и анти-целями, а не вознаграждением.
Я могу придумать некоторые алгоритмы для первой ситуации, такие как скалолазание или генетические алгоритмы, но я предполагаю, что они оба будут медленными. Они также могут быть применимы во втором сценарии, но невероятно медленны и не способствуют онлайн-обучению.
Мой вопрос прост: Есть ли простой алгоритм для обучения искусственной нейронной сети с обучением по усилению? Меня в основном интересуют ситуации с вознаграждением в режиме реального времени, но если доступен алгоритм для целенаправленных ситуаций, еще лучше.
Хороший вопрос, и я думаю почти точно то же самое, где в моем случае нейронная сеть повторяется. Одним из ключевых моментов является то, что вы говорите о двух разных алгоритмах обучения. Вы не можете применять два разных алгоритма обучения к одной и той же проблеме, не вызывая конфликтов, если у вас нет способа их устранения. –