【深度强化学习 二】Q-Learning小技巧(2)(李宏毅老师学习视频笔记)

首先放视频地址李宏毅老师深度强化学习视频。 上一篇初识Q-Learning讲了一些基础知识,本篇记录改进内容。html Double DQN 在DQN中,Q值老是会被高估,由于 Q ( s t , a t ) Q\left(s_{t}, a_{t}\right) Q(st​,at​)的target是 r t + max ⁡ a Q ( s t + 1 , a ) r_{t}+\max _{a} Q
相关文章
相关标签/搜索