DDPG本质:将策略网络和价值网络分开 || 经验池做用、目标网络做用、DDQN简介

经验池做用:深度学习要求输入数据独立同分布,使用经验池能够使状态间相互独立网络 目标值网络做用:计算网络目标值须要用到现有的Q值,用一个更新较慢的网络专门提供此Q值,进而提升训练的稳定性和收敛性,而原网络的Q值仅用于动做选择和更新参数函数 DQN:只有一个网络学习 Nature DQN:用目标网络计算目标值yblog Double DQN:因真实策略具备随机性,所以上图max操做使估计值函数比真实
相关文章
相关标签/搜索