【深度强化学习 一】Q-Learning初识(1)(李宏毅老师学习视频笔记)

首先放视频链接:李宏毅老师深度强化学习课程——Q-Learning Q-Learning简介 Q-Learning是一种value-based的方法,在这种方法中,不是直接学习policy,而是利用值函数评价现在行为的好坏,即AC算法中的critic。比如state value function,表示在当前策略下,到了某一状态s,之后能获得的累计收益。 两种更新方法(MC和TD) Monte-Ca
相关文章
相关标签/搜索