策略梯度训练cartpole小游戏

时间 2020-12-30

原文原文链接

我原来已经安装了anaconda，在此基础上进入cmd进行pip install tensorflow和pip install gym就可以了. 在win10的pycharm做的。 policy_gradient.py 1 # -*- coding: UTF-8 -*- 2 3 """ 4 Policy Gradient 算法（REINFORCE）。做决策的部分，相当于机器人的大脑 5