强化学习-策略梯度

从现在开始,进行一系列的强化学习笔记,课程主要是结合David Silver 和 李宏毅老师的课程。 David Silver 课程偏理论,而且我个人觉得讲的不是很透彻,对比李宏毅老师的课程就讲的非常深入浅出了。 这节,我们来看看策略梯度算法。 在这里是状态作为输入,动作作为输出,如上图所示 以给定的策略,我们可以生成一个episode数据(状态1,动作1,状态2,动作2…) 对于一个episod
相关文章
相关标签/搜索