强化学习中：神经网络与梯度下降

时间 2020-12-24

原文原文链接

一、参考：http://www.javashuo.com/article/p-ezzpmjxp-eg.html 这里的关系是，主要用强化学习方法控制cartpole，同时由于是连续状态动作，所以用到了神经网络来拟合策略函数，策略梯度在这里的作用，是对神经网络的参数进行更新，是更新参数的一种方法。 1，此处用到三层神经网络：输入层，隐藏层，输出层因为此处需要输出的动作只有三个，所以相当于用神经网

>>阅读原文<<