ACER算法介绍

ACER 算法介绍 1. 离散动作 1.1 截断重要性采样 1.2 新的置信域方法 1.3 离散算法Atari实验 2 连续动作 2.1 stochastic dueling network 3 总结 ACER算法是在论文SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY中提出的一种可以使用off-policy训练的置信域策略优化方法。 ACE
相关文章
相关标签/搜索