TD3:双延迟深度确定性策略梯度算法

目录 模型架构 Double Q-learning Target Policy Smoothing​ Delayed 损失函数 学习过程 TD3:Twin Delayed Deep Deterministic Policy Gradient,是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法,在DDPG算法基础上,同时对policy网络和value网络进行改进,优化了Q-Va
相关文章
相关标签/搜索