深度加强学习PPO(Proximal Policy Optimization)算法源码走读

原文地址:https://blog.csdn.net/jinzhuojun/article/details/80417179python OpenAI出品的baselines项目提供了一系列deep reinforcement learning(DRL,深度强化学习或深度加强学习)算法的实现。如今已经有包括DQN,DDPG,TRPO,A2C,ACER,PPO在内的近十种经典算法实现,同时它也在不断
相关文章
相关标签/搜索