5.Q-learning

时间 2021-07-13

原文原文链接

目录深度强化学习目录简介上篇文章里讲了MC算法和TD算法，不过用的是V值函数，这回我们学习Q函数。在贝尔曼方程那一篇文章里我们说过，Q函数可以表示成最优Bellman等式的形式，且最优的Q等价于最优的策略 π ⋆ \pi^\star π⋆，又策略 π \pi π一定可以收敛到最优策略 π ′ \pi' π′，Q-learning就是基于这些思想来实现的。实现运用到的技术前面讲到了，Q-l