PPO,Proximal Policy Optimization Algorithms 论文阅读

TRPO的优化方式比较复杂,对于某些模型结构无法使用,例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化,使用目标函数的一阶导数进行policy的更新,并且更新时可以进行多次迭代,重复使用现有的数据更新policy。 先看TRPO的目标函数(是surrogate的) 其复杂的优化方式主要来源于那个hard的KL散度
相关文章
相关标签/搜索