强化学习 10 —— Policy Gradient详细推导

前面几篇文章价值函数近似、DQN算法、DQN改进算法DDQN和Dueling DQN我们学习了 DQN 算法以及其改进算法 DDQN 和 Dueling DQN 。他们都是对价值函数进行了近似表示,也就是 学习价值函数,然后从价值函数中提取策略,我们把这种方式叫做 Value Based。 一、Value Based 的不足 回顾我们的学习路径,我们从动态规划到蒙地卡罗,到TD到Qleaning再
相关文章
相关标签/搜索