深度强化学习之近端策略优化(Proximal Policy Optimization)

  今天学习了李宏毅老师的深度强化学习课程—策略梯度和近端策略优化,其中近端策略优化是策略梯度的升级版本,并且是openai的默认强化学习算法,可见其重要性。近端策略优化可以在策略梯度的基础上,将在策略变为离策略变,并添加一定的约束得到,因此本部分内容包括策略梯度、在策略变离策略和添加约束三部分内容。   策略梯度方法是对策略参数化,然后通过梯度下降的方法对参数进行优化,从最大化期望累积奖励出发,
相关文章
相关标签/搜索