3.Proximal Policy Optimization(PPO)+on/off policy

目录 深度强化学习目录 简介 策略梯度(Policy Gradient)的缺点在于采样量大,且每一次更新参数都需要采样n轮,更新完又要去采样……换言之,对游戏数据的利用率很低,太慢了。 这种采样-学习-采样的过程,是一种on-policy策略,接下来我们要将的PPO则不同,是一种off-policy的策略。 符号 本篇中运用到的符号和上一篇中的基本一致。 On/Off Policy On Poli
相关文章
相关标签/搜索