5.Q-learning

目录 深度强化学习目录 简介 上篇文章里讲了MC算法和TD算法,不过用的是V值函数,这回我们学习Q函数。在贝尔曼方程那一篇文章里我们说过,Q函数可以表示成最优Bellman等式的形式,且最优的Q等价于最优的策略 π ⋆ \pi^\star π⋆,又策略 π \pi π一定可以收敛到最优策略 π ′ \pi' π′,Q-learning就是基于这些思想来实现的。 实现运用到的技术 前面讲到了,Q-l
相关文章
相关标签/搜索