强化学习中:神经网络与梯度下降

一、 参考:http://www.javashuo.com/article/p-ezzpmjxp-eg.html 这里的关系是,主要用强化学习方法控制cartpole,同时由于是连续状态动作,所以用到了神经网络来拟合策略函数,策略梯度在这里的作用,是对神经网络的参数进行更新,是更新参数的一种方法。 1,此处用到三层神经网络:输入层,隐藏层,输出层 因为此处需要输出的动作只有三个,所以相当于用神经网
相关文章
相关标签/搜索