DDPG本质：将策略网络和价值网络分开 || 经验池做用、目标网络做用、DDQN简介

时间 2020-08-08

原文原文链接

经验池做用：深度学习要求输入数据独立同分布，使用经验池能够使状态间相互独立网络目标值网络做用：计算网络目标值须要用到现有的Q值，用一个更新较慢的网络专门提供此Q值，进而提升训练的稳定性和收敛性，而原网络的Q值仅用于动做选择和更新参数函数 DQN：只有一个网络学习 Nature DQN：用目标网络计算目标值yblog Double DQN：因真实策略具备随机性，所以上图max操做使估计值函数比真实

>>阅读原文<<