读论文Trust Region Policy Optimization

这篇论文的作者星光闪耀,都是大牛级人物,而且是最顶尖的那种。第一作者是Schulman(cs294课程的主讲人)、Levine和Abbeel也在作者名单里面。 论文首先通过一些surrogate目标函数来保证较大的步长来进行策略优化和提升,然后通过一系列的近似来推出理论公式和实际工程可行的算法,这就是鼎鼎大名的TRPO算法 论文通过一系列测试说明TRPO算法能够学到复杂的策略比如游泳,跳和走,以及
相关文章
相关标签/搜索