关于后续的通用模型使用整理的资料 都是使用了同一个例子 OpenAI公司的gym库——滑竿游戏 下面部分就是给大家先介绍一下gym库 大家后续使用的话 可以将自己需要训练的任务套进这个游戏中哦
gym介绍安装 pip install gym
每一行的注释 都写在了后面哦 一定要看懂这段代码 因为后面的所有模型都会使用到 一定一定要看懂 没看懂的可以去看看视频
import gym env gym.make( CartPole-v1 ) # 创建一个游戏 for episode in range(10): # 玩10次游戏 obs env.reset() # 获得游戏第一个状态 for step in range(50): # 每次游戏最多玩50步 env.render() # 显示游戏画面 action env.action_space.sample() # 随机从2个动作中选择一个动作 nobs, reward, done, info env.step(action) # 执行动作 返回下一个状态和执行动作得到的奖励 if done: break # nobs:下一个状态 4 # reward:执行动作得到的奖励 # done: TRUE 杆倒 print(done)PG理论知识 PG代码结构部分



