强化学习之PPO(Proximal Policy Optimization Algorithms)算法

强化学习之PPO(Proximal Policy Optimization Algorithms)算法 PPO算法提出了新的目标函数可以在多个训练步骤实现小批量的更新,解决了策略梯度算法中步长难以确定的问题。如果步长太小,训练时间就会过长。如果步长过大,有用信息会被噪音掩盖(因为每个数据影响都很大),或者令性能灾难性的下降,难以收敛。 on-policy与off-policy的区别 on-poli
相关文章
相关标签/搜索