PARL源码走读——使用策略梯度算法求解迷宫寻宝问题

时间 2020-07-20

标签 parl 源码走读使用策略梯度算法求解迷宫寻宝问题繁體版

原文原文链接

前不久，百度发布了基于PaddlePaddle的深度强化学习框架PARL。git传送门python 做为一个强化学习小白，本人怀着学习的心态，安装并运行了PARL里的quick-start。不体验不知道，一体验吓一跳，不愧是 NeurIPS 2018 冠军团队的杰做，代码可读性良好，函数功能很是清晰，模块之间耦合度低、内聚性强。不只仅适合零基础的小白快速搭建DRL环境，也十分适合科研人员复现论文结

>>阅读原文<<