Trust Region Policy Optimization (TRPO) 背后的数学原理

  本文是自己的TRPO算法学习笔记,在数学原理推导核心部分附有自己的理解与解释。整篇文章逻辑清晰,思路顺畅。有想推导的同学可以一起学习。   TRPO和PPO都是基于Minorize-Maximization MM的算法。 Surrogate function   RL中期望maximizing the expected discounted rewards,期望折扣奖励 η \eta η 可用
相关文章
相关标签/搜索