深度强化学习之近端策略优化（Proximal Policy Optimization)

时间 2021-01-16

标签笔记繁體版

原文原文链接

今天学习了李宏毅老师的深度强化学习课程—策略梯度和近端策略优化，其中近端策略优化是策略梯度的升级版本，并且是openai的默认强化学习算法，可见其重要性。近端策略优化可以在策略梯度的基础上，将在策略变为离策略变，并添加一定的约束得到，因此本部分内容包括策略梯度、在策略变离策略和添加约束三部分内容。策略梯度方法是对策略参数化，然后通过梯度下降的方法对参数进行优化，从最大化期望累积奖励出发，

>>阅读原文<<