RL论文阅读20 - MF类算法总结(VPG, TROP, PPO, DDPG, TD3, SAC)

PG类算法总结 1. On-Policy类算法 1.1 VPG:Vanilla Policy Gradient on policy 算法 可用于动作空连续或者离散动作空间 这个就是最初的PG版本。我们的目的是最大化有限的return。J代表的是无折扣的有限return。 下面的公式推导见从PG到A3C τ \tau τ就是我们的采样序列。 A是Advantage function 可见我们需要获得
相关文章
相关标签/搜索