读论文Trust Region Policy Optimization

时间 2021-01-12

标签 Reinforcement learning 繁體版

原文原文链接

这篇论文的作者星光闪耀，都是大牛级人物，而且是最顶尖的那种。第一作者是Schulman（cs294课程的主讲人）、Levine和Abbeel也在作者名单里面。论文首先通过一些surrogate目标函数来保证较大的步长来进行策略优化和提升，然后通过一系列的近似来推出理论公式和实际工程可行的算法，这就是鼎鼎大名的TRPO算法论文通过一系列测试说明TRPO算法能够学到复杂的策略比如游泳，跳和走，以及

>>阅读原文<<