强化学习-策略梯度

时间 2021-01-11

原文原文链接

从现在开始，进行一系列的强化学习笔记，课程主要是结合David Silver 和李宏毅老师的课程。 David Silver 课程偏理论，而且我个人觉得讲的不是很透彻，对比李宏毅老师的课程就讲的非常深入浅出了。这节，我们来看看策略梯度算法。在这里是状态作为输入，动作作为输出，如上图所示以给定的策略，我们可以生成一个episode数据（状态1，动作1，状态2，动作2…）对于一个episod