PPO，Proximal Policy Optimization Algorithms 论文阅读

时间 2021-01-02

原文原文链接

TRPO的优化方式比较复杂，对于某些模型结构无法使用，例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化，使用目标函数的一阶导数进行policy的更新，并且更新时可以进行多次迭代，重复使用现有的数据更新policy。先看TRPO的目标函数（是surrogate的）其复杂的优化方式主要来源于那个hard的KL散度