【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods

论文题目:Addressing Function Approximation Error in Actor-Critic Methods 所解决的问题?   value-base的强化学习值函数的近似估计会过估计值函数(DQN),作者将Double Q-Learning处理过拟合的思想引入actor critic算法中。(过估计的问题就在于累计误差会使得某些不好的state的value变地很高(e
相关文章
相关标签/搜索