TensorFlow应用实战-18-Policy Gradient算法

Policy Gradient算法 mark policy Gradient算法不止一种。 有兴趣的话: 深度增强学习之Policy Gradient方法1 https://zhuanlan.zhihu.com/p/21725498 # -*- coding: UTF-8 -*- """ Policy Gradient 算法(REINFORCE)。做决策的部分,相当于机器人的大脑 """ im
相关文章
相关标签/搜索