基于策略的强化学习(四):深度确定性策略梯度(DDPG)算法

深度确定性策略梯度(DDPG)算法 深度确定性策略梯度算法是使用深度学习技术、同时基于 Actor—Critic 算法的确定性策略算法。该算法中的 Actor 和 Critic 都使用深度神经网络来建立近似函数。由于该算法可以直接从 Actor 的策略生成确定的行为而不需要依据行为的概率分布进行采样而被称为确定性策略。该算法在学习阶段通过在确定性的行为基础上增加一个噪声函数而实现在确定性行为周围的
相关文章
相关标签/搜索