Trust Region Policy Optimization (TRPO) 背后的数学原理

时间 2021-01-13

原文原文链接

本文是自己的TRPO算法学习笔记，在数学原理推导核心部分附有自己的理解与解释。整篇文章逻辑清晰，思路顺畅。有想推导的同学可以一起学习。 TRPO和PPO都是基于Minorize-Maximization MM的算法。 Surrogate function RL中期望maximizing the expected discounted rewards，期望折扣奖励 η \eta η 可用