强化学习组队学习task03—— 策略梯度及 PPO 算法

文章目录 一、策略梯度 1.策略梯度理论实现 R的梯度算法: 对于该公式的理解: 在计算完R的梯度后,我们就使用策略梯度对参数进行更新 2.策略梯度实现的小技巧 (1)添加一个基准值 (2)分配合适的权重 3.蒙特卡洛与时序差分 二、PPO算法 1.on-policy和off-policy 2.importance sampling 3.on-policy转变为off-policy 4.PPO/T
相关文章
相关标签/搜索