4

Я хочу знать спецификацию наблюдения CartPole-v0 в OpenAI Gym (https://gym.openai.com/).Значения наблюдений - OpenAI Gym

Например, в следующих выводах кода observation. Одно наблюдение похоже на [-0.061586 -0.75893141 0.05793238 1.15547541]. Я хочу знать, что означают цифры. И я хочу любой способ узнать спецификацию других Environments, таких как MountainCar-v0, MsPacman-v0 и так далее.

Я попытался прочитать https://github.com/openai/gym, но я этого не знаю. Не могли бы вы рассказать мне, как узнать характеристики?

import gym 
env = gym.make('CartPole-v0') 
for i_episode in range(20): 
    observation = env.reset() 
    for t in range(100): 
     env.render() 
     print(observation) 
     action = env.action_space.sample() 
     observation, reward, done, info = env.step(action) 
     if done: 
      print("Episode finished after {} timesteps".format(t+1)) 
      break 

(от https://gym.openai.com/docs)

Выходной сигнал имеет следующий

[-0.061586 -0.75893141 0.05793238 1.15547541] 
[-0.07676463 -0.95475889 0.08104189 1.46574644] 
[-0.0958598 -1.15077434 0.11035682 1.78260485] 
[-0.11887529 -0.95705275 0.14600892 1.5261692 ] 
[-0.13801635 -0.7639636 0.1765323 1.28239155] 
[-0.15329562 -0.57147373 0.20218013 1.04977545] 
Episode finished after 14 timesteps 
[-0.02786724 0.00361763 -0.03938967 -0.01611184] 
[-0.02779488 -0.19091794 -0.03971191 0.26388759] 
[-0.03161324 0.00474768 -0.03443415 -0.04105167] 
+0

Я считаю, что это класс https://github.com/openai/gym/blob/master/gym/envs /classic_control/cartpole.py – fafl

ответ

3

После абзаца, описывающего каждую среду в сайте OpenAI Gym, у вас всегда есть ссылка, которая подробно объясняет окружающую среду, например, в случае CartPole-v0 вы можете найти все данные в:

[Barto83] А. Барта, RS Sutton и CW Андерсон, «нейроноподобная Адаптивная элементы, которые могут решать сложные проблемы обучения управления», IEEE Transactions по системам, человеку и кибернетике, 1983.

В этой статье вы можете прочитать что тележка-полюс имеет четыре переменных состояние:

  1. положение тележки на трассе
  2. угла полюса с вертикальной
  3. тележки скоростью
  4. скорости изменения от угла

Таким образом, observation представляет собой просто вектор со значением четырех переменных состояния.

Аналогично, детали MountainCar-v0 можно найти в

[Moore90] Мура, эффективной памяти на основе обучения для управления роботом, докторская диссертация, Кембриджский университет, 1990.

и так далее.

3

Зона наблюдения, используемая в OpenAI Gym, не совсем то же самое с оригинальной бумагой. Найдите ответ wiki на OpenAI. Наблюдение пространство представляет собой 4-D пространство, и каждое измерение следующим образом:

Num Observation Min Max 0 Cart Position -2.4 2.4 1 Cart Velocity -Inf Inf 2 Pole Angle ~ -41.8° ~ 41.8° 3 Pole Velocity At Tip -Inf Inf

Смежные вопросы