NeurIPS 2018夺冠功臣|百度正式发布PaddlePaddle深度强化学习框架PARL

时间 2020-04-04

标签 neurips 夺冠功臣百度正式发布 paddlepaddle 深度强化学习框架 parl 繁體版

原文原文链接

强化学习做为AI技术发展的重要分支，为各家AI公司高度重视。去年，百度首次参与NeurIPS 2018的强化学习赛事，就击败了多达400支来自全球研究机构以及各大公司研究部门的参赛队伍，大比分以绝对优点拿下了冠军，并受邀在加拿大蒙特利尔举办的NeurIPS 2018 Competition Workshop上分享。近日，百度PaddlePaddle正式发布在赛事夺冠中起到关键做用的深度强化学习框架PARL，同时开源了基于该框架的NeurIPS2018强化学习赛事的完整训练代码。（冠军解决方案见https://github.com/PaddlePaddle/PARL）git

下载安装命令

## CPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle

## GPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu

PARL的名字来源于PAddlepaddle Reinfocement Learning，是一款基于百度PaddlePaddle打造的深度强化学习框架。PARL凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比，PARL具备更高的可扩展性、可复现性和可复用性，强大的大规模并行化和稀疏特征的支持能力，以及工业级应用案例的验证。github

自2012年以来，百度就将在multi-arm bandits问题上的研究成果成功落地到推荐系统中，普遍应用于搜索、对话、推荐等产品，经过点击反馈结合在线训练的方式，动态调整探索(exploration)和收益(exploitation)的平衡点，下降探索风险的同时最大化推荐收益。近年来，百度在工业应用以及学术研究上进一步引入强化学习，落地在不只限于凤巢，新闻Feed推荐等应用上，而且应用在前沿的学术研究领域例如机器人控制，通用人工智能AGI等。2018年，在机器人控制会议CoRL上，百度发表了干预强化学习机制的工做；进而在NeurIPS 2018的强化学习赛事上击败了400多个全球研究机构的参赛队伍，首次参赛就拿下了NeurIPS2018 强化学习赛事冠军。参赛队伍中不乏RNN之父创立的公司、卫冕冠军NNAISENSE、阿里、Yandex、Intel等强劲对手。web

设计深度强化学习框架是至关具有挑战性的工做。虽然各大公司前后推出了一些强化学习框架，好比Intel的Coach、OpenAI的baseline、Google的Dopamine等，但截止到目前，开源社区中仍没有一个主导的RL框架。这其中主要的一个缘由是强化学习近年来发展迅猛，新的研究方向不断涌现。从15年Deepmind 发表DQN 算法以来，涌现了大量的DQN算法变种，包括Double DQN、Dueling DQN、Rainbow等，同时在连续控制(continuous control RL)，分层控制(hierarchicalRL)，多机器人控制(multi-agent RL)上涌现出至关多的新技术，甚至和元学习（meta-learning）以及环境建模（model-based）等结合起来。当前社区中存在的开源框架虽然能够支持其中的一部分算法，可是因为技术迭代太快，以前设计的框架难以跟上最新的研究热点。第二个缘由是深度强化学习算法和应用，具备方法各异、超参难调、随机性大等特色，即使是针对同一个问题，使用同一种算法，不一样的实现方式会带来极大的差别，学术界也一再强调强化学习可复现性问题。综合这些因素，要实现一个统一的模型和计算平台，是至关困难的事情。算法

PARL 在设计之初就考虑了上述提到的扩展性和可复现性的问题。从上图能够看出，PARL经过抽象出Model、Algorithm、Agent等基础类帮助用户快速搭建能够和环境交互的机器人。Model类负责强化学习算法中的网络前向计算（forward）部分，一般嵌套在algorithm中。Algorithm 类则定义了网络的更新方式（backward）部分，一般属于一个agent。Agent类负责和环境进行交互，而且收集数据训练底下的algorithm。经过这样的设计方案，PARL保证了算法扩展性：针对同一个场景，用户想调研不一样的网络结构对算法效果影响的时候，好比调研RNN建模或者CNN建模，只须要重写model部分便可；针对不一样场景想用同一个算法调研的时候，也是也只需重写model便可。可复现性主要体如今框架提供的algorithm集合上，在下一段和复用性一块儿结合理解。网络

PARL 的这种设计结构的另外一个好处是高复用性。仓库内的提供了大量经典算法的例子(algorithms目录内), 包括主流的DQN 、DDQN、Dueling DQN、DDPG、PPO等，这些算法因为和网络结构进行了解耦（网络结构定义在Model类中），所以不针对特定任务，而是一个至关通用的算法抽象。用户经过PARL搭建强化学习算法来解决本身目前遇到的问题时，能够直接import 这些经典算法，而后定义本身的网络前向部分便可短期内构建出经典的RL算法。这种高复用性不只极大地下降了用户的开发成本，并且因为PARL提供的算法内部包含完整的超参数列表，确保仓库内模型具有复现论文级别指标的能力。架构

下图是PARL官方提供的一个构建示例，展现了如何快速构建能够解决Atari游戏的DQN模型。用户只须要定一个前向网络（Model类），而后调用框架算法集合里面的DQN algorithm便可构建一个经典DQN算法了。DQN算法里面的繁琐的构建target网络，同步target 网络参数等细节，已经包含在构建的algorithm里面，用户无需再特别关注。框架

PARL基于百度内部的成熟应用开源，所以更能方便地定制大规模并行算法。经过调用简单的函数接口，用户能够将算法从单机版扩展成GA3C、A3C、IMPALA等并行训练架构。 PARL对于通信机制，数据I/O等也有独特的加速处理。此外，基于PaddlePaddle对大规模工业级排序/推荐等稀疏模型的支持能力，PARL也能轻松扩展到百亿级别数据或特征的训练。函数

PARL的并行能力在开源社区中处于绝对领先地位。根据百度在NeurIPS上作的技术分享，基于PARL最多能够同时经过8块GPU来拉动近20000个CPU节点运算，彻底发挥整个CPU集群的计算潜力，在赛事中成功将须要近5个小时迭代一轮的PPO算法加速到了不到1分钟，实现了相对单机运算高达几百倍的加速比。这种目前开源社区中框架难以支持的并行提速，是他们拿下本次冠军的关键因素之一。工具

百度本次正式发布PARL, 不只在学术界引起热议，更是在工业界引发巨大反响。百度拥有国内惟一有影响力的深度学习基础库，并积极推动AI生态战略。随着百度PaddlePaddle在工业界的影响不断深刻，一个高性能、高规格的深度强化学习框架，也是知足工业界日趋发展旺盛的强化学习应用需求的必要条件。而这一系列举措，对于百度最终决胜AI时代将是有力的推进。性能

冠军解决方案见：

https://github.com/PaddlePaddle/PARL

>> 访问 PaddlePaddle 官网，了解更多相关内容。

下载安装命令

## CPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle

## GPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu