Lee Hung-yi强化学习 | (4) Q-learning更高阶的算法

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址 课程视频 课件地址 1. Double DQN(DDQN) DQN的Q-value往往是被高估的,如下图: 上图为四个游戏的训练结果的对比。 橙色的曲线代表DQN估测的Q-value,橙色的直线代表DQN训练出来的policy实际中获得的Q-value. 蓝色的曲线代表Double DQN估测的Q-v
相关文章
相关标签/搜索