强化学习论文（Scalable agent alignment via reward modeling: a research direction）

时间 2019-11-19

标签强化学习论文 scalable agent alignment reward modeling research direction 栏目 Scala 繁體版

原文原文链接

原文地址：html

https://arxiv.org/pdf/1811.07871.pdfweb

========================================================算法

如何让AI依照人类的意图行事？这是将AI应用于现实世界复杂问题的最大障碍之一。浏览器

DeepMind将这个问题定义为“智能体对齐问题”，并提出了新的解决方案。安全

概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用，以符合用户意图的方式解决复杂的现实世界问题。网络

强化学习之因此选择游戏：架构

游戏一般都有一个明确的目标，以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号，使咱们可以获得关于哪些算法和架构选择最有效的快速反馈。 oracle

ps: 游戏里面咱们能够获得immediate reward , 快速反馈，可是在现实生活中，一些复杂的场景和任务中是不知足这个条件的，所以设计一种方法，使强化学习可以 hehave in accordance with user's intention , 是颇有必要的。app

一：框架

这篇文章属于半综述类文章，之因此这么说是由于这篇文章的一个主要工做是依据已有的工做论述了奖励建模的challenge（Section 4），并给出了已有的被用于解决这些问题的方法（concrete approaches to mitigate these challenge）(Section 5)。

用做者的表述是： In essence, this document combines existing efforts on AI safety problems by providing one coherent narrative around how solving these problems could enable us to train aligned agents beyond human-level performance .

we outline an approach for enabling the user to communicate their intentions to the agent for the task at hand so that it allows them to trust the trained agent.

可见，本文中做者的主要工做是将前人的工做串联起来。

（同时提出了一个方法，叫作：

递归奖励建模）

虽然咱们相信递归奖励建模是训练对齐智能体的一个很是有前景的方向，但目前还不知道它能够如何扩展（须要更多的研究）。幸运的是，追求agent alignment还有其余一些研究方向：

将来的研究方向

虽然DeepMind的研究人员们深信递归奖励模型会是智能体对齐训练很是有前景的一个研究方向，然而他们目前没法预估这个方向在将来会怎么发展（须要你们进行更多的研究！）。不过值得庆祝的是，专一智能体对齐问题的其它几种研究方向也同时有别的研究人员正在作出成果：

模仿学习
短视强化学习（Myopic reinforcement learning）（http://www.cs.utexas.edu/~bradknox/TAMER.html）
逆强化学习（Inverse reinforcement learning）（http://ftp.cs.berkeley.edu/~russell/papers/colt98-uncertainty.pdf）
合做逆强化学习（https://arxiv.org/abs/1606.03137）
迭代扩增（复杂到人类难以评价的问题，能够教会一个 AI ）
经过争论学习（人和人吵架生气，但 AI 和 AI 吵架反倒能够带来安全）
智能体基础组件设计（Agent foundations）（https://intelligence.org/files/TechnicalAgenda.pdf）

DeepMind也在文中探讨了这几种研究方向的异同之处。

========================================================

参考文献：

和 DeepMind 一块儿考虑如何在 AI 中重现人类的价值观

https://baijiahao.baidu.com/s?id=1618162184361105377&wfr=spider&for=pc

DeepMind：经过奖励模型，让AI按照人类意图行事

https://new.qq.com/omn/20181122/20181122A0X53G.html

=======================================================

如下是中文翻译（同门师弟的寒假工做，翻译质量虽然不是很高，可是仍是能够看一看的）

基于奖励建模的可伸缩智能体对齐:一个研究方向
摘要
将强化学习算法应用于实际问题的一个障碍是缺少合适的奖励函数。设计这样的奖励函数是困难的，部分缘由是用户对任务目标只有一个隐含的理解。这就产生了智能体对齐问题:咱们如何建立行为符合用户意图的智能体？咱们提出了一个高层次的研究方向来解决以奖励建模为中心的智能体对齐问题：从与用户的交互中学习奖励函数，经过强化学习优化学习的奖励函数。咱们讨论了在将奖励建模扩展到复杂和通常领域时，咱们预期将面临的关键挑战、减轻这些挑战的具体方法以及在结果智能体中创建信任的方法。

1 介绍
游戏是一个有用的研究基准，由于进展很容易衡量。Atari游戏提供了一个得分功能，能够捕捉智能体玩游戏的表现；桌游或多人竞技游戏，如Dota 2和星际争霸2，在游戏结束时会有一个明确的赢家或输家。这有助于咱们凭经验肯定哪一种算法和体系结构改进最有效。
然而，机器学习(ML)研究的最终目标是超越游戏，改善人类生活。为了实现这一点，咱们须要ML在现实世界中帮助咱们，从简单的任务(如订餐或回复电子邮件)到复杂的任务(如软件工程或运行业务)。然而，在这些和其余现实任务中的表现是不容易衡量的，由于它们不具有奖励函数。相反，任务的目标只能经过人类用户的意图间接得到。
这须要找好一条道路。一方面，咱们但愿ML可以创造出像AlphaGo的第37步棋这样的创造性和卓越的解决方案——这是没有人会推荐的一步棋，但它彻底把游戏转向了AlphaGo。另外一方面，咱们但愿避免致使非预期的行为的恶化解决方案，好比利用环境模拟器中的一个bug。为了区分这两种结果，咱们的智能体须要了解其用户的意图，并经过其行为稳健地实现这些意图。咱们将此定义为智能体对齐问题：
咱们如何建立符合用户意图的智能体？
在此基础上，提出了一种解决智能体对齐问题的研究方向。咱们之前人的分类学和问题定义为基础，强调人工智能安全领域中易于处理和被忽视的问题。咱们将这些问题合并成一个连贯的图像，并解释解决它们如何能产生一个解决智能体对齐问题的方案。

经过奖励建模对齐。第3节介绍了咱们在强化学习框架中对智能体对齐问题的处理方法。咱们将该问题分为两部分：(1)从用户的反馈中学习一个获取了用户意图的奖励函数；(2)经过强化学习训练策略来优化所学习的奖励函数。换句话说，咱们把学习要实现什么和学习如何实现它分开。咱们把这种方法称为奖励建模。图1简要说明了这个设置。
当咱们将奖励建模扩展到复杂的通常领域时，咱们预计会遇到许多挑战(第4节)。这些挑战的严重性以及可否克服目前是一个开放的研究问题。第5节讨论了一些可能有用的方法。
最终，咱们但愿将奖励建模扩展到人类没法直接评估的过于复杂的领域。要将奖励建模应用于这些领域，咱们须要加强用户评估结果的能力。在3.2节中，咱们描述了如何递归地应用奖励建模:使用奖励建模进行训练的智能体能够在训练下一个智能体时帮助用户进行评估。
咱们的目标是训练对齐的智能体，可是咱们如何知道咱们何时达到了这个目标呢？在现实世界中部署智能体时，咱们须要提供证据，证实咱们的智能体其实是充分对齐的，以便用户可以信任它们。第6节讨论了5种不一样的研究方法，它们能够帮助咱们增长对智能体的信任:设计选择、测试、可解释性、形式验证和理论保证。

迫切需求。咱们对智能体对齐问题的解决方案旨在实现如下三个特性。
可伸缩性。随着ML性能的提升，对齐变得更加剧要，任何不能与智能体一块儿伸缩的解决方案都只能做为权宜之计。咱们但愿对齐技术可以在长期内持续发挥做用，即可以扩展为在普遍的通常领域具备超人性能的智能体。
经济性。为了消除创建非对齐智能体的动机，训练对齐智能体在成本和性能方面不该比其余训练智能体的办法面临更多缺点。
实用性。每一个领域都有还没有解决的问题，即便咱们的理解已经成熟到足以解决许多实际问题，这些问题仍然存在。物理学家们尚未成功地将重力与其余三种基本力统一块儿来，但在实践中，咱们对物理学的了解足以飞到月球和制造GPS卫星。相似地，咱们也不打算为全部的安全问题拟定一个解决方案。相反，咱们的目标是一个最小可行的产品，足以在实践中实现智能体对齐。同时在咱们的系统中达到100%的信任是不可能的，也是没必要要的：咱们只须要达到一个信任的水平，在这个水平上，咱们能够自信地说，咱们的新系统比现有系统更加对齐。

假设。咱们的研究方向基于两个假设。第一个假设基于了解他人的意图很是容易这种直觉，大多数人都能作到。虽然这样作涉及到理解许多内在的模糊概念，以便理解其余人想要什么，但若是咱们有足够的标记数据，机器学习在内在的模糊概念(例如，猫和狗在视觉上的区别)学习估计器方面已经取得了至关大的成功。所以，咱们彷佛能够合理地指望咱们也能够学习捕获了理解用户意图所必需的任何模糊概念的评估器，而不用正式地指定它们。此外，一些用户意图可能缺少简单、清晰的形式化，所以可能须要学习规范。
假设1 咱们能够以足够高的精度了解用户意图。
在谈到AI安全问题时，该假设认为在实践中咱们能够学会避免各类规范问题。换句话说，咱们假设有足够的模型容量和正确的训练算法，能够从数据中提取用户的意图。不用说，现有的可伸缩机器学习技术存在许多问题，好比面对对抗干扰输入时的脆弱性，以及训练分布以外的糟糕性能，这些问题与上述说法相关，但并不矛盾。
第二个假设基于另外一种直觉，对于咱们关心的许多任务，用户在环境中评估结果要比直接教授行为更容易。若是这是正确的，这意味着奖励建模可让用户训练智能体来解决他们本身没法解决的任务。此外，这个假设容许咱们经过递归应用奖励建模从简单的任务引导到更通常的任务。
假设2 对于咱们想要解决的许多任务，评估结果比产生正确的行为更容易。
咱们在这里使用的更容易的概念能够从所需的工做量、努力程度或洞察数量来理解。咱们也能够理解这个术语相似于计算复杂性理论中的困难这种更为正式的概念。
有一些假设2不正确的例子：例如，具备低维度结果空间的任务(例如yes & no问题)。可是，只要用户但愿获得答案的解释，就会恢复这种假设，由于对解释的评估一般比生成解释更容易。

免责声明。须要强调的是，咱们在这里描述的研究方向在执行时的成功是不能保证的，它不该该被理解为一个计划，来实现智能体对齐。相反，它概述了哪些研究问题会告诉咱们奖励建模是不是一种可伸缩的对齐解决方案。
咱们没有考虑关于偏好有效负载的问题：智能体应该与谁的偏好对齐?如何对不一样用户的偏好进行汇总和权衡？智能体何时不该该服从？咱们声称所描述的方法与道德规范、用户的偏好以及法律或社会框架无关，只要咱们可以提供足够的反馈(尽管偏好负载可能会影响所需的反馈量)。这些问题被视为超出了本文的范围，尽管它们具备明显的重要性。相反，本文的目的是从技术的角度讨论智能体对齐问题，将单个智能体对齐到单个用户。

2 智能体对齐问题
围绕对齐问题的讨论由来已久，能够追溯到科幻小说(阿西莫夫，1942)。在一个故事中，阿西莫夫提出了三个机器人定律，旨在使机器人对齐他们的操做员：故事接着指出了这些定律的缺陷。自那时起，智能体对齐问题就获得了哲学家们的呼应，并受到技术做者的非正式对待。智能体对齐问题的第一个正式处理是由Dewey(2011)提出的，并在此基础上进行了改进。
咱们将智能体对齐问题框定为一个顺序决策问题，其中智能体在多个(离散的)时间步上顺序地与环境交互。在每个时间步中，智能体执行一个动做(例如移动或键盘敲击)并接收一个观测(例如照相机图像)。智能体的动做由其策略指定，策略是当前历史记录(到目前为止所采起的动做和接收到的观测结果的序列)到下一个动做分布的映射。此外，智能体能够经过交互协议与用户交互，该交互协议容许用户将其意图传达给智能体。在此未指定交互协议以保持灵活性。智能体对齐问题的解决方案是一种策略生成行为，该行为符合用户的意图(所以并不只仅由环境决定)。
在文献中已经探索了许多交互形式：提供一组所需行为的示例；提供分数、行为、值、优点或轨迹偏好形式的反馈；提供明确的目标函数。
交互的一种特殊状况是强化学习，用户指定一个奖励函数，该函数除了提供在每一个时间步中的观测，还提供标量奖励；智能体的目标是选择行动最大化平均或指数折扣奖励。

2.1 设计规范问题
解决智能体对齐问题须要解决全部的设计规范问题。当智能体的动机与用户但愿智能体达到的目标不一致时，就会出现安全问题。规范问题的例子包括如下不良激励：
关断问题：智能体一般被激励去关闭本身或阻止本身被关闭。
反作用：智能体不被激励去减小与其主要目标无关的影响，即便这些影响是不可逆转的或难以逆转的。
监管缺位：智能体在不受监管的状况下，被鼓励寻找捷径和欺骗，并禁用其监控系统。
抑制漏洞:智能体可能有动机禁用或规避任何限制其操做范围的抑制措施。
子代理的建立:代理可能有动机建立其余潜在的不对齐的代理，以帮助其实现目标。
…

目前机器学习中广泛使用的是非对齐目标：一般使用BLEU score来衡量翻译的准确性。Inception score和Frechet Inception distance用来衡量生成模型的图像质量。然而，这些度量方法与咱们的意图并不对齐：它们不能很好地表明实际性能，而且在直接优化时产生退化的解决方案。

2.2 智能体对齐的难度
如下两个方面能够调整对齐问题的难度。特别是，若是咱们但愿使用ML来解决复杂的实际问题，咱们可能须要可以处理这些问题的最困难的组合。

任务的范围。智能体对齐问题的难度取决于任务的多个方面。其中一些使智能体更容易产生有害行为，而另外一些则使理解用户的意图变得更加困难。
任务的复杂性。任务越复杂，智能体须要了解用户意图的细节就越多。
环境中执行机构的性质和数量。与经过web浏览器与internet交互的智能体相比，单个机器人手臂受到的约束更大。
任务中出现不可接受结果的机会。例如，在为用户选择音乐时，形成损害的可能性比打扫房间时要小。

智能体的性能。当训练强化学习(RL)智能体时，存在着各类各样的杠杆来提升或阻碍它们的性能：算法的选择，例如：A3C和IMPALA。训练步骤的数量、训练环境的选择、模型容量、规划范围、蒙特卡洛树搜索推出的数量。智能体的性能越高，越有可能产生意想不到的意外行为。另外一方面，更高的性能水平也可能致使更加对齐的行为，由于智能体在避免不安全状态方面更有能力。所以，不一样级别的智能体性能容忍不一样程度的失调，并要求在系统中有不一样程度的信任。

3 伸缩奖励建模
训练RL智能体的现代技术能够分解为Q-learning或策略梯度算法选择和通用函数近似器的架构选择。目前最成功的函数逼近器是利用反向传播训练的深度神经网络。这些是低误差和高方差参数估计量，每每消耗大量数据，易于过拟合，但有良好的缩放到很是高维问题的历史。
近年来，机器学习领域在设计愈来愈强大的深度强化学习算法方面取得了长足的进步，不管是源自Q-learning的基于价值的方法，仍是基于策略梯度的方法。主要的改进源自于将深度RL扩展到跨多个机器的分布式设置。
RL范式是足够通用的，基本上咱们能够用这个范式描述全部在计算机上能够完成的具备经济价值的任务(例如与鼠标和键盘交互)。然而，要使深度 RL在现实世界中发挥做用，还有许多挑战须要解决；特别是，咱们须要算法可以在没有人工设计奖励函数的状况下，按照预期完成复杂的任务。
在接下来的章节中，咱们将详细描述咱们解决对齐问题的研究方向。它是在深度强化学习的背景下进行的。虽然这个方向很大程度上依赖于强化学习框架，但咱们讨论的大多数挑战和方法本质上并不依赖于深度神经网络，能够使用其余可伸缩函数逼近器来实现。

3.1 奖励建模
咱们的研究方向围绕奖励建模。用户经过提供反馈，训练奖励模型来了解他们的意图。这个奖励模型为与环境交互的强化学习智能体提供奖励。这两个过程同时发生，所以咱们在循环中让用户来训练智能体。图1显示了基本设置。

图1:奖励建模设置示意图:使用用户反馈训练奖励模型;该奖励模型为与环境交互进行RL训练的智能体提供奖励。

近年来，利用深度神经网络从不一样形式的奖励反馈中进行原型学习的研究愈来愈多。这包括轨迹偏好、目标状态示例、演示及它们的组合。

信用分配。要想出色地完成一项任务，就须要解决信用分配问题：如何将结果归因于过去采起的具体动做？例如，棋盘上哪些动做致使了这场比赛的胜利？哪些操纵杆动做能够增长游戏得分？因为奖励的领域和稀疏性，这个问题可能很难解决。
相反，奖励建模容许咱们将解决信用分配问题的负担从用户转移到智能体。这是经过使用RL算法来产生被用户判优的行为来实现的，用户只须要评估结果。若是假设2是真的，那么教授一个奖励函数比执行任务自己更容易。
一些反馈协议，例如演示和价值/优点反馈，要求用户知道如何在任务上产生近似最优的行为。这是有限制的，由于它把解决信用分配问题的责任推给了用户。在这些状况下，遵循用户诱导的行为一般不会致使很强的超人性能。相反，奖励建模也与用户提供的关于最佳行为的提示相兼容。若是用户对信用分配问题有所了解，他们能够使用奖励塑造来教授一种与这种行为方向相关的奖励函数。

奖励建模的优势。将奖励函数与智能体的策略分开来学习，能够使咱们将智能体的目标与其行为区分开来。若是咱们理解了奖励函数，咱们就知道了智能体在优化什么；特别是，咱们知道它的意图是否与用户的意图对齐。这有三个优点，能够帮助使奖励建模更经济:
用户没必要对智能体和环境之间的每一次交互都提供反馈，有时咱们能够直接从用户反馈中训练策略。因为深度RL算法每每是很是采样低效的(例如，须要花费数周的时间来学习如何玩Atari游戏)，在每次交互中提供反馈一般是不实际的。
咱们能够区分策略的对齐性和奖励模型的对齐性。
咱们能够经过将一个功能更强大的智能体插入到咱们的奖励建模设置中来利用深度RL智能体的进展。
用户不须要解决信用分配问题。

设计规范的问题。奖励建模的目标是解决全部的设计规范问题：咱们所须要作的就是为智能体提供“正确的”奖励函数——这个奖励函数不包括上面列出的非预期的奖励，也不惩罚任何由它们致使的行为。上面的设计规范问题是模糊的人类能够理解的概念，源于用户不但愿智能体作什么的意图。咱们的方法基于假设1，即咱们应该可以向咱们的智能体教授这些概念；若是咱们可以提供正确的数据，而且奖励模型可以正确地通常化，那么咱们应该可以以足够高的精度学习这个“正确”的奖励函数。所以，设计规范问题应该消失。从这个意义上讲，奖励建模是这类安全问题的一站式解决方案。
为了证实这个想法，考虑这个简单的存在证实：让H是一个历史集合，它们对应于避免了上面列出的全部规范问题的对齐行为。若是H集非空,则存在一个奖励函数r，任何相应的最优策略π_r^*从H产生行为的几率为1。一个简单的例子，这样的奖励函数r每隔几步就奖励一次智能体，当且仅当它的历史是集合H的一个元素。理论上，咱们能够选择这个奖励函数r来训练咱们的RL智能体。然而,在实践中咱们还须要考虑咱们的奖励模型是否有足够的能力来表示r, r是否能够从一个合理的数据量中学习(考虑到咱们的模型的概括误差),奖励模型是否正确通常化,以及RL智能体的最终行为是否产生了与H足够接近的行为。咱们在第四节讨论这些挑战。

学习理解用户反馈。人类经过直接提供标量奖励训练RL智能体方面一般作得不好；他们一般教授一种成形的奖励函数，并提供依赖于智能体策略的奖励。反馈的哪一种形式或组合对哪一个领域有效是目前一个开放的研究问题。从长远来看，咱们应该设计出可以适应人类反馈方式的算法。然而，这提出了一个自举问题：若是一个算法自己不知道如何解释反馈，那么咱们如何训练它去学习解释反馈呢？咱们须要扩展咱们的反馈“语言”来和奖励模型交流意图，从已经创建好的反馈形式(如偏好标签和演示)开始，并在每一步利用咱们现有的反馈“词汇表”。下一节中介绍的奖励建模的递归应用就是解决这个问题的一种方法。

3.2 递归奖励建模
在某些任务中，人类用户很难直接评估结果。有许多可能的缘由：结果域可能极其技术化(例如x86机器代码),高度复杂(如公司网络或折叠的蛋白质),很是高维(如神经网络的内部激活),有延迟的影响(例如,一个新的基因引入现有的生态系统),或者对人类而言不熟悉。这些任务不可能经过无人帮助的奖励建模来解决。
为了将奖励建模扩展到这些任务，咱们须要提升用户提供反馈的能力。本节描述了一种咱们称为递归奖励建模的潜在解决方案：利用在更窄领域更简单任务中使用奖励建模进行训练的智能体，来训练在更通常的领域中更有能力的智能体。

设置。想象重复下面的过程。第1步，咱们使用上一节中描述的来自用户反馈的奖励建模来训练智能体A_1。第k步，咱们使用智能体A_(k-1)协助用户在训练A_k时评估结果。这种帮助能够采起多种形：提供相关的辅助信息、汇总大量数据、解释智能体A_k的内部结构、解决用户划分的子问题，等等。有了这种帮助，用户就能够提供反馈来培训下一个智能体A_k (参见图2)。注意智能体A_(k-1)训练来解决的任务是协助评估A_k任务的结果,不一样于A_k训练来解决的任务。
虽然这种顺序训练在概念上更清晰，但在实践中，联合训练全部这些智能体以确保它们在正确的分布上获得训练可能更有意义。此外，全部这些智能体均可能共享模型参数，甚至把同一智能体实例化的副本做为对抗游戏中的不一样角色。

图2:递归奖励建模: 智能体A_(k-1)与用户交互,辅助评估过程来训练奖励模型和智能体A_k。递归地应用，容许用户在日益复杂的领域中训练智能体，在这些领域中，智能体没法本身评估结果。

举例。例如，考虑假设的奇幻做者任务：咱们想训练一个智能体A写一本奇幻小说。向这个智能体提供奖励信号是很是困难和昂贵的，由于用户必须阅读整本小说并评估其质量。为了改善这个评估过程，智能体将帮助用户提供辅助输入：提取的情节概要、检查拼写和语法、总结角色发展、评估散文流畅性，等等。这些任务都比写小说要简单得多，由于它们只关注书的一个方面，须要的文本要少得多(例如，与小说做者不一样，这种评估帮助能够由大多数受过教育的人来完成)。这个助理智能体执行的任务将依次使用奖励建模进行训练。
另外一个例子是学术研究任务：咱们想要训练一个智能体来执行一系列的实验并写一篇研究论文。为了评价这篇研究论文，咱们训练了另外一个智能体来审核实验的执行是否正确，论文是否清晰，文笔是否优美，是否有趣，是否新颖，是否准确的反映了实验结果。虽然写一篇优秀的论文须要不少领域的专业知识、才华和辛勤的工做，但评估研究成果的质量一般要容易得多，并且一般由大量的对等评审员完成。
递归奖励建模也有点相似于人类组织。想象一下，在一个公司里，每一个经理只须要评估其下的各个员工报告的表现，相应地增长和减小他们的工资。若组织内造成其余小组来协助这项评估，经理就能够转而根据小组的表现获得评估。这个计划一直进行到CEO，来给直接报告的经理进行指导。在这个类比中，用户能够插入到层次结构的每一个部分：教单个员工如何执行他们的工做，教经理如何评估他们的报告，并向CEO提供指导。若是这家公司的每一位员工都能胜任本身的工做，那么整个公司就能大规模地解决很是复杂和困难的问题，而这些问题单靠我的是没法在短期内解决甚至评估的。
讨论。为了让这个递归训练过程扩展，和智能体A_k的任务相比，智能体A_(k-1)的任务须要是一个在较窄的领域内更简单的任务。若是评估结果比产生行为更容易(假设2)，那么递归奖励建模将构建一个智能体层次结构，该层次结构将变得愈来愈强大，可以执行愈来愈广泛的任务。所以，递归奖励建模能够被看做是奖励建模代替监督学习或模仿学习的迭代放大的实例。
随着k的增长，用户在整个评估过程当中所占的工做量愈来愈小，愈来愈依赖于其余智能体的帮助。从本质上说，用户的反馈变得愈来愈重要。咱们能够想象用户的贡献是在一个愈来愈高的抽象级别上，或者是在一个愈来愈粗的粒度上。所以，一旦用户确信自动化系统可以胜任这些任务，即一旦用户信任这些系统，那么用户就能够留下愈来愈多“须要填写”的细节给自动化系统。
用户应该如何分解任务评估？它们须要为前一个智能体分配更简单的评估辅助任务，并将结果合并到一个聚合评估中。这种分解须要详尽：若是咱们忽略了评估任务结果的一个方面，那么新的智能体A_k可能会以任意(即不理想的)方向对其进行优化。这是咱们但愿经过递归奖励建模解决的另外一个问题：咱们可让智能体A_2提出一个任务评估的分解，并让另外一个智能体A_1对其进行评论，暗示分解忽略的方面。或者，也能够基于下游的实际结果进行分解建议的反馈。
一个重要的开放问题是，错误是否会累积：更狭隘的智能体A_(k-1)的错误是否会在智能体A_k训练时致使更大的错误？或者，咱们是否能够将训练过程设置为可自我纠正的，从而抑制较小的错误(例如，使用智能体集合、训练智能体来积极寻找和抵消这些错误，等等)? 若是偏差累积是有界的，而且奖励模型能够产生对齐的智能体，那么使用递归奖励建模训练的智能体的层次结构能够被认为是对齐的，相似于经过概括证实天然数命题。

复杂性理论的类比。在奖励建模设置中，智能体提出由用户评估的行为。这在概念上相似于求解存在量化的一阶逻辑公式，如∃x.φ(x)。智能体提出一个行为x，用户评估该行为的质量。为了简化这个类比，让咱们假设用户的评估是二进制的，这样述语φ就能够捕捉到它。
经过递归奖励建模，咱们能够解决相似于涉及交替量词的更复杂的一阶逻辑公式的任务。例如，∃x∀y.φ(x,y)对应于递归的下一个阶段：智能体A_2提出了一个行为x，智能体A_1响应了一个辅助行为y。而后用户评估遵循x的辅助y (训练智能体A_1)和在辅助y下的输出x (训练智能体A_2)。在递归深度k增长时，咱们就能够针对包含k个交替量词的问题。
当使用多项式有界量词和一个能够在多项式时间内计算的公式φ时，奖励建模相似于解决NP彻底问题：非肯定性执行器(相似于智能体)提出了一个解决方案，该解决方案能够在肯定的多项式时间内(由用户)评估其正确性
例如, 在一个给定的图中发现一个环,每个顶点刚好访问一次(哈密顿环问题)是NP彻底的：它能够用指数时间与已知的算法在最坏状况下找到一个环,但鉴于环能够快速验证,每一个顶点只访问了一次。
这种对复杂性理论的类比最先由Irving等人提出，它提供了两个重要的看法：
人们广泛认为复杂性类别P和NP是不相等的，这支持假设2：对于许多相关问题，评估比生成解决方案更容易。
基本上，数学家们关心的每个形式命题均可以写成一个具备有限数量的交替量词的一阶逻辑命题。这代表递归奖励建模能够覆盖很是通常的任务空间。

4 挑战
奖励建模的成功与否在很大程度上取决于奖励模型的质量。若是奖励模型只捕获目标的大部分方面，而不是所有，这可能致使智能体找到不理想的退化解决方案。换句话说，智能体的行为以一种潜在的很是脆弱的方式依赖于奖励模型。
将奖励建模扩展到更困难和更复杂的任务也会带来许多其余挑战：是否负担得起学习正确的奖励函数所需的反馈量？咱们可否学习一个对状态分布变化具备鲁棒性的奖励函数？咱们可否防止智能体在奖励模型中发现漏洞？咱们如何在不可接受的结果发生以前预防它们？即便奖励模型是正确的，咱们如何训练智能体稳健地产生由奖励模型激励的行为？
这些挑战中的每个都有可能阻止咱们扩展奖励建模。在本节的其他部分中，咱们将更详细地讨论这些挑战。咱们并不认为这一挑战清单是详尽的，但但愿它包括最重要的挑战。第5节讨论了缓解这些挑战的具体方法；有关概述，请参见图3。咱们提出的研究方向的目标是调查这些方法，以了解它们是否以及如何克服这些挑战。

图3:扩展奖励建模时的挑战以及咱们讨论的解决这些挑战的方法。最右边的列列出了每种方法要解决的挑战。

4.1 反馈量
在来自正确分布的无限数据的限制下，咱们能够使用足够的模型容量学习正确的奖励函数(在极端状况下使用查找表)。然而，一个关键的问题是，在现实预算下，咱们生成或标注的数据量是否可以使奖励模型得到足够的精度。归根结底，这是一个在状态分布上的泛化效果如何的问题：咱们的模型泛化得越好，咱们就能从现有的数据中挤出越多的东西。
颇有可能，若是须要学习和咱们想教的用户意图（心理、合做、公平、自我模型等）高度相关的高级概念，那么智能体对齐问题对已经在足够普遍的现实任务上很高效的智能体来讲其实是更容易的。若是这是真的，那么和与这些概念相关的对齐奖励函数交流的工做量可能比从头开始学习要小得多。
另外一方面，不具备人类概括误差的智能体可能会以使人惊讶或不理想的方式解决任务，这一点从反例(Szegedy et al., 2013)能够看到。这意味着对齐一个智能体可能须要的不只仅是大量的标记数据；咱们可能还须要为咱们的模型提供正确的概括误差。

4.2 反馈分布
机器学习模型一般只能对和训练时来自相同分布的输入提供有意义的预测。然而，咱们但愿奖励模型在策略外，对智能体从未访问过的状态也是准确的。因此(1)鼓励智能体探索它没有访问过的正价值轨迹，(2)阻止智能体探索不但愿看到的负价值轨迹，是相当重要的
这个问题被称为分布移位或数据集移位。这种分布转移问题一样适用于智能体的策略模型；观察分布的变化可能使策略输出无效。然而，对于奖励模型，这个问题更为重要，在某些状况下，若是奖励模型仍然无缺，那么策略能够经过微调恢复。
目前还不清楚这个问题的原则性解决方案是什么。在没有这种解决方案的状况下，咱们能够依靠分布外检测来服从人类指望，或者将训练分布扩大到包括全部相关状况。

4.3 奖励黑客
.奖励黑客是指在肯定奖励的过程当中，利用漏洞使智能体得到比预期更多奖励的一种效应。这个问题很难解决，由于这些漏洞必须从像AlphaGo的第37步棋等理想的创造性解决方案中加以界定。
非预期漏洞的来源是奖励博弈，其中智能体利用了奖励函数中的一些错误规范，以及奖励篡改，其中智能体干扰了计算奖励的过程。

奖励博弈。当奖励函数错误地给一些不但愿的行为提供了高奖励时，奖励博弈的机会就会出现；具体示例见图4。奖励博弈的一个潜在来源是奖励模型对对抗性输入的脆弱性。若是环境足够复杂，智能体可能会去想如何专门设计这些对抗扰动输入，从而欺骗奖励模型，使其提供高于用户预期的奖励。不像大多数产生对抗性例子的工做，智能体不可以自由地合成任何可能的输入到奖励模型中，可是会在其环境中找到一种方法实现对抗性观察序列。
奖励博弈问题原则上能够经过改进奖励模型来解决。这是否意味着奖励博弈问题也能够在实践中被克服能够说是最大的开放问题之一，也多是奖励建模最大的弱点。然而，文献中也有一些例子代表奖励博弈在实践中是能够避免的。对一个学习到的奖励函数进行强化学习在gridworlds，Atari游戏和连续电机控制任务中都已经成功。

图4:Atari游戏奖励模型的一个例子。从最好的种子开始的彻底训练的奖励模型被冻结，并用于从头开始训练一个新的智能体。图中显示了训练过程当中根据雅达利奖励(黑色)的平均真实集收益和根据冻结奖励模型(绿色)的平均集收益。随着时间的推移，智能体学会利用奖励模型：感知的性能(根据奖励模型)增长，而实际的性能(根据游戏分数)直线降低。

奖励篡改。奖励篡改问题能够按照干预了奖励过程的哪一部分来分类。智能体可能会干扰的奖励过程的关键组成部分包括对奖励模型的反馈，奖励模型用来肯定奖励的观测，实现奖励模型的代码，以及持有奖励信号的机器寄存器。
例如，《超级马里奥世界》容许智能体从游戏内部执行任意代码，理论上容许智能体直接为本身编写更高的分数。现有的诸如此类篡改的例子有些是人为设计的，这在实践中多是问题，也可能不是问题，取决于咱们如何仔细地遵循良好的软件设计原则(例如，避免缓冲区溢出)。
与上面讨论的奖励博弈不一样，奖励篡改会绕过或改变奖励模型。这可能须要一组不一样的解决方案；与其提升奖励模型的准确性，还不如增强奖励模型软硬件的完整性，并对其进行反馈训练。

4.4 不可接受的结果
目前，大多数关于深度强化学习的研究都是在不存在不可接受结果的模拟环境中进行的；在最坏的状况下，模拟程序能够终止并从初始状态从新启动。然而，当在任何现实世界的任务中训练一个强化学习智能体时，会有许多结果代价过于昂贵，智能体须要彻底避免它们。例如，有些邮件是私人助理永远不该该写的；物理机器人采起破坏自身硬件或伤害附近人类的行动；烹饪机器人可能会使用有毒原料；等等。
避免不可接受的结果有两个困难方面。首先，对于复杂的任务，环境中老是有未知的部分，智能体须要安全地探索它们。解决的关键在于，智能体须要在不访问不安全状态的状况下了解它们。其次，智能体须要对可能致使其无心中产生不可接受结果的扰动作出强有力的反应，例如分布变化和对抗输入。

4.5 奖励-结果差距
奖励-结果差距表现为奖励模型与从智能体的策略中经过彻底反强化学习恢复的奖励函数(智能体彷佛在优化的奖励函数)之间的差别。即便咱们给智能体提供了一个正确对齐的奖励函数，获得的行为仍然多是不对齐的，由于智能体可能没法收敛到最优策略：即便是可证实的贝叶斯最优智能体也可能由于缺少探索而没法收敛到最优策略。
形成奖励-结果差距的缘由有不少：奖励可能太过稀疏，形状不佳，或者数量级错误；因为超参数设置不当，训练可能会过早中止；智能体可能在学习过程当中探索不足或产生非预期行为；智能体可能会面临各类稳健性问题，如外部引发的状态空间分布变化或面临对抗输入。根据奖励-结果差距的性质，奖励模型可能须要根据智能体的具体缺点(例如，远离不安全状态)进行调整，而不是仅仅捕捉人类的意图。

5 方法
本节将讨论一些方法，它们都有助于缓解第4节中讨论的问题。这些方法应该被认为是探索的方向；还须要更多的研究来肯定它们是否有效。

5.1 在线反馈
初步实验代表，当奖励模型没有在线训练，即与智能体并行时，会出现失败的模型。在这些状况下，智能体会学习利用冻结的奖励模型。因为没有额外的用户反馈，智能体发现的奖励模型中的漏洞是没法修正的。
若是咱们在线向智能体提供奖励反馈，咱们就会在用户反馈和智能体行为之间造成一个更紧密的反馈循环。这使得奖励模型可以适应智能体正在访问的状态分布，从而减轻了一些分布转移问题。此外，经过在线反馈，用户能够发现试图破解奖励模型的行为，并据此进行纠正。理想状况下，咱们但愿智能体分担一些责任，以肯定什么时候须要反馈，例如根据不肯定性估计(第5.9节)，由于若是不这样作，及时提供相关反馈的成本可能会至关高。

5.2 策略外反馈
当用智能体行为的反馈来训练智能体时，这个反馈仅仅是基于已经发生的结果有反应的。为了防止不可接受的结果和奖励黑客行为，咱们须要可以在某些结果发生以前就告知它们是不可取的。这就要求奖励模型在策略外，即在智能体从未访问过的状态上是准确的。若是将策略外反馈与基于模型的RL(第5.6节)结合使用，智能体就能够成功地避免从未发生过的不安全行为。
用户能够主动提供策略外反馈，以预测潜在的陷阱。经过使用环境的生成模型来建立反事实事件的假设场景，能够得到策略外反馈。然而，因为会产生分布转移，智能体从未访问过的状态的生成建模可能很是困难；由此产生的视频可能会遗漏一些重要的细节，或者让人彻底没法理解。所以，在抽象层面上提供策略外反馈可能更可行，例如使用天然语言。这相似于人类经过讲故事和想象来了解很差的结果。

5.3 利用现有数据
大量人工制做的视频数据和散文已经唾手可得。这些数据中的大多数目前没有高质量的文本注释，所以不能直接用做奖励标签。然而，它包含了不少关于人类意图的有用信息。至少有两种方法能够利用现有的数据：使用无监督学习(如无监督的预训练或第三人称模仿学习)或手动注释。

5.4 层次反馈
支持分层RL的相同论点也鼓励对奖励模型进行分层分解。这将容许用户提供低级和高级的反馈。分层RL和分层奖励模型结合起来应该很天然：若是智能体和奖励模型之间的时间层次对齐，那么在层次结构的每一个层次上，奖励模型能够训练智能体的相应层次。这可能有助于绕过一些很是困难的长期信用分配问题。
例如，回想一下3.2节中的幻想小说做者任务。低级反馈包括拼写、流畅性和语言语调，而高级反馈能够针对段落级别没法提供的情节和角色发展。

5.5天然语言
因为咱们但愿智能体可以在相同的环境中追求并实现各类各样的目标，而且可以以一种人类天然的方式来指定这些目标，所以咱们能够根据天然语言指令对奖励函数进行建模。这些天然语言指令能够看做是人类可读的任务标签。此外，它们提供了一个单独的特权通道，与经过观测通道接收的任何指令相比，该通道应该更容易保护，也更不易被欺骗。
除了提供任务标签以外，咱们还能够使天然语言成为智能体的体系结构和训练过程当中更重要的一部分。这有许多优势。
天然语言是人类反馈的一种天然形式。若是咱们能学会将天然语言的表达转化为训练奖励模型所依据的数据集所需的严格格式，这将使用户可以更有效地提供反馈。
若是使用语言来表示潜在空间，而且可能以一种人类更可预测的方式进行泛化，那么天然语言就有可能实现更好的泛化。这也可能有助于减轻奖励模型的分布问题(第4.2节)：若是训练分布在天然语言段落的空间中至关密集，那么可能会使分布外的输入很是少。
天然语言可能会带来更好的可解释性。特别是对于抽象的高级概念，天然语言可能比可视化的可解释技术更适合。然而，默认状况下，奖励模型的表示形式可能与简短的天然语言表达式不彻底一致，可能须要针对这个目标进行专门的训练(不产生合理化)。

5.6 基于模型的RL
基于模型的RL智能体会学习环境的显式模型，这种模型能够使用规划算法，如蒙特卡洛树搜索。若是咱们正在训练一个基于模型的智能体，那么奖励模型能够做为规划搜索过程的一部分。这容许智能体使用策略外奖励评估，评估它从未实际采起的行动，前提是奖励模型是策略外准确的 (5.2节)。这有许多优势：
智能体能够经过在规划过程当中发现不可接受的结果来避免它们(4.4节)。
智能体的模型能够用于从用户那里征求还没有发生的结果的反馈。
智能体能够更快地适应奖励模型中的变化，由于它能够在不与环境交互的状况下使用模型将这些变化备份到价值评估。
基于模型的方法能够经过在规划期间使用当前的奖励模型评估将来的结果，从而有原则地解决奖励篡改问题(4.3节)。以这种方式规划的智能体不会有改变其奖励函数的动机；也不能操纵持有奖励信号的寄存器。

5.7 边界约束
除了学习奖励函数，咱们还能够学习低级或高级行为的边界约束，以防止不可接受的结果。阻止行为比用大量的负面奖励来削弱它们更有效，由于负面奖励能够在之后用更大的奖励来补偿(好比在奖励黑客的状况下)。这个问题可能会被智能体的世界模型中的错误放大。
这里描述的用于训练奖励模型的相同技术应该应用于训练评估边界约束并阻止低级行为的模型或在策略更新期间强制约束的模型。这种技术的主要缺点是它给人类增长了额外的负担，由于他们必须了解哪些行为会致使不可接受的结果。根据域的不一样，这可能须要人得到其余智能体辅助。所以能够转为使用递归奖励建模对这些智能体进行训练(第3.2节)。

5.8 对抗训练
为了缓解人工对抗性输入对神经网络的影响，迄今为止经验上最有效的策略是对抗性训练：针对对抗性扰动输入显式地训练模型。
然而，如何从通常意义上严格定义对抗性扰动还不清楚。为了涵盖更通常的状况，咱们能够训练智能体去明确地发现奖励模型中的弱点和奖励黑客攻击的机会，以及致使不可接受的结果的最小扰动。这与红色团队相似，目标是发现对手可能使用的攻击策略(例如安全漏洞)。
用户能够查看发现的失败案例，并将其添加到反馈数据集中。这可能意味着更高的数据需求；所以，即便对抗性训练解决了这个问题，它也可能使数据需求超出可承受范围。

5.9不肯定性估计
奖励模型的另外一个理想特征是对其输出不肯定性的适当表达。改进不肯定性估计带来两个好处:
在训练过程当中，它能够使用主动学习，来帮助自动化收集关于信息性最大状态的反馈的过程。
当不肯定性很大时，例如对于不像训练分布的输入，智能体能够服从于人或退回到规避风险的决策。
最近的一些研究开发了神经网络的可缩放近似贝叶斯方法。到目前为止，模型集成提供了一个很是强大的基线。贝叶斯方法从关于哪些参数是正确的“认知”不肯定性中，解决了不可约的不肯定性，它随着数据量的增长而下降；这种区别有助于主动学习。
其余工做致力于校准神经网络的预测，使他们的主观不肯定性对应于他们的经验错误频率。虽然贝叶斯方法有助于校准，但在深度神经网络的实践中还不够好。通过良好校准的模型能够进行风险规避决策，可是可靠地处理分布外状态须要更高质量的不肯定性估计，这是目前深度学习技术所不能提供的。

5.10 概括误差
最后，奖励模型的一个关键方面是奖励模型的概括误差。因为咱们没法对奖励模型和智能体在全部可能结果上进行训练，咱们须要对给定的数据进行适当的概括。深度学习的成功归因于概括误差，如分布式表征和复合性，这可能也是击败“维度诅咒”的必要条件。进一步的概括误差对于解决许多任务是必要的；例如卷积神经网络因为空间不变性，在计算机视觉应用中大大优于多层感知器。
解决奖励模型可能须要非标准的概括误差；例如，现代深度网络一般使用分段线性激活函数，其线性泛化远离训练数据，这意味着对于极端的输入，估计的奖励会趋于正无穷大或负无穷大。深层模型的概括误差受体系结构、激活函数和训练过程的影响。愈来愈多的工做以深刻模型中的系统泛化为目标。例如，模块化、递归、潜在空间中的图结构或天然语言、可微分外部记忆或用于执行任意算术运算的神经单元。

6 创建信任
假设咱们的研究方向是成功的，而且咱们知道如何训练智能体按照用户意图行事。咱们如何才能确信咱们正在训练的智能体确实是充分对齐的呢？换句话说，咱们如何可以确信咱们已经克服了第4节的挑战，而且智能体的行为充分地捕获了人类的意图？这须要额外的技术，使咱们可以得到咱们正在训练的智能体的信任。
一个宏伟的目标是使安全证书的生产成为可能，这些产品能够做为证听说服第三方信任咱们的系统。这些安全证书能够用来证实负责的技术开发、化解竞争以及证实遵照法规。安全证书的形式能够是第三方持有的秘密测试组的分数、可解释属性的证据，或针对某些已创建规范的可机器检查的正确性形式证实，等等。下面将讨论在咱们的模型中构建信任的一些通用方法。

图5：9款Atari游戏中学习奖励函数的对齐：散点图显示了从用户偏好中学习到的奖励(y轴)与实际Atari1000步奖励(x轴)平均值之间的相关性。对于彻底对齐的奖励函数，全部的点都在一条直线上。在这些实验中，奖励模型在一些游戏中表现良好，如《梁骑士》、《英雄》和《Q*bert》，而在《Private Eye》、《Breakout》和《Mondezuma’s Revenge》中则表现不佳。

设计选择。将学习目标从学习行为中分离出来可让咱们对最终的行为得到更高的信任，由于咱们能够将对奖励模型的信任从对策略的信任中分离出来。例如，咱们能够经过评估用户的反馈来衡量奖励函数与任务目标的对齐程度(见图5)。若是咱们理解和信任了奖励模型，咱们就能知道智能体正试图实现什么。若是假设2是真的，那么奖励模型应该比策略更容易解释和调试。
另外一个能够增长系统信任的设计选择是将策略分为两部分：计划生成器和计划执行器。计划生成器生成当前行动过程的可读计划。这个计划能够是很是高级的，如商业计划或研究计划，也能够是至关低级的，如烹饪食谱。而后，用户能够选择性地审查和签署该计划。而后计划执行器获取计划并实现它。
在训练设置、模型体系结构、损失函数等方面，清晰、易于理解的设计选择能够致使更可预测的行为，从而增长咱们对最终系统的整体信任(而不是训练一大堆端到端的参数)。特别是若是咱们设法正式指定某些安全属性，咱们可让它们成为咱们智能体设计的一个明确部分。

测试。在机器学习中，对单独的外置测试集进行评估已是一种常见的实践。对于监督学习，训练模型的性能是经过从相同的数据分布中抽取的外置测试集的经验风险来评估的。这种作法能够很容易地应用于奖励模型和策略，例如在一组专门设计的模拟环境中，甚至在攻击者明确试图在智能体中形成不当行为的对抗状况下。

可解释性。可解释性被定义为向人类解释或以可理解的方式表达的能力。目前普遍使用的深度神经网络大可能是黑盒，理解其内部功能被认为是很是困难的。然而，最近的进展使咱们有理由乐观地认为，咱们将可以使这些黑盒变得愈来愈透明。这包括利用t-SNE图可视化智能体潜在状态空间的初步工做；检查智能体决策时的目标；评估模型对高层人类概念的存在/强度的敏感性；在循环中优化模型，使其更易于被人类解释；在一样由人类完成的任务中，将神经激活翻译成天然语言；结合不一样的交互可视化技术，这里仅举几个例子。

正则验证。神经网络模型检验的最新进展为训练模型的正则验证打开了大门。验证模型的尺寸已经超过MNIST-size，超过100万个参数，这代表验证明际大小的RL模型可能很快就能实现。若是能够扩大形式验证的规模，咱们能够尝试验证策略的属性和听从高级规范奖励函数，包括关断、反作用和3.1节中提到的规范问题。若是第1节中的假设1是真的，那么这个规范不须要手工编写，而是能够由一个单独的学习模型提供。然而，在这种状况下，形式正确性证实只有在学习到的规范准确时才有用。
为了使验证任务更容易，咱们的模型能够被训练得更容易验证。然而，这也会致使利用学习到的规范中的漏洞的退化解决方案。这相似于奖励黑客的问题(4.3节)，它训练一个策略来优化一个冻结的奖励模型(图4)。绕过这个问题就能够使用相同的技术成功针对奖励黑客，例如使用用户反馈在线学习规范(5.1节)。

理论保证。最后，更有野心的是理论基础良好的可伸缩学习算法的开发，这些算法具备几率近似正确或样本复杂性保证、容量声明、校准良好的不肯定性估计等特色。不幸的是，目前流行的深度神经网络架构和训练技术严重缺少这样的保证。

7 智能体对齐的替代方案
本文提出的研究方向并非解决智能体对齐问题的惟一可能途径。虽然咱们认为它是目前最有前途的探索之一，但不能保证成功。幸运的是，对于智能体对齐还有许多其余有前途的方向。它们能够并行地进行，甚至相互结合。本节提供概述并解释咱们的方法如何与它们相关。咱们的清单并不详尽；将来可能会提出更多的方向。

7.1 模仿学习
训练对齐智能体的一种策略能够是模仿人类行为。一个充分模仿人类对齐行为的智能体也应该是对齐的。如下说明适用:
数据量。虽然反馈一般能够由非专家提供，但用于人类模仿的数据必须由该任务的专家提供。这多是更昂贵的数据，并且咱们不清楚是否须要更多或更少的数据来进行奖励建模。
认知模仿。有可能许多人类须要认知的任务依赖于很是高级的直觉、规划，而其余认知过程不多在人类行为中获得反映。例如，经过与在不一样领域遇到的不一样问题进行类比，能够得到解决问题的关键洞察力。单从人类行为的数据来看，这可能很难复制和预测。
泛化。为了发挥做用，咱们用模仿学习训练的智能体须要持续展现高质量的行为，即便是面对新的状况。相似于假设2，对学习到的奖励函数进行泛化可能比泛化行为更容易。
性能。单独使用模仿学习一般很难超越人类：即便是一个完美的模仿者也只能表现得和它所模仿的源同样好；超人的性能一般来自于经过消除人类行为中的不一致性，从而更快更可靠地执行人类行为序列。
所以，模仿学习不太可能与其余长期训练智能体的策略相竞争。然而，它可能足以充当“垫脚石”：受过模仿学习训练的智能体可能充当“研究助理”，并帮助扩大其余对齐努力。所以，它应该被认为是咱们研究策略的一个强有力的替代策略。

7.2 反向强化学习
咱们能够把强化学习算法看做是从奖励函数到行为的映射。该映射的逆函数以智能体的行为做为输入，并产生一个奖励函数；这就是所谓的反向强化学习。从这个意义上说，反向强化学习能够被看做是一种以行为轨迹做为反馈形式的奖励建模方法。然而，照目前的状况看，它有两个缺点:
IRL是一个约束不足的问题，由于仅从行为出发，奖励函数不是惟一可识别的(甚至不能达到仿射线性变换)；例如，R=0老是一个解。若是咱们假设人是彻底理性的，智能体能够为人设计一系列的任务，那么就能够识别出奖励函数。甚相当于人的理性的一些假设也能够放宽，但总的来讲，反向强化学习问题变得没法解决。
它假设人类是在直接优化他们的奖励，即便这是一种传达他们偏好的低效方式。例如，对于一我的来讲，说“我想让你天天早上8点为我煮咖啡”比连续几天在8点为本身煮咖啡要容易得多。

7.3 合做反向强化学习
基于IRL的第二个缺点，Hadfield-Menell et al.(2016)提出了合做逆强化学习(CIRL)。CIRL是一个正式的奖励建模模型，它是一个用户和一个智能体之间的两我的的游戏，照下述方式进行。
用户和智能体从用户奖励函数的共享先验开始，
而后用户观测他们的奖励函数，最后
用户和智能体都执行策略来优化用户的奖励函数。
CIRL游戏的最优解决方案是使用用户和智能体的共同知识来计算智能体的策略(在步骤3中执行)，以及从奖励函数到用户策略的映射。而后根据在步骤2中观测到的它们的奖励函数，用户应该选择相应的策略在步骤3中执行。用户和智能体都必须选择动做来权衡(1)与智能体传达用户的奖励函数和(2)直接最大化用户指望奖励。
咱们对做为智能体对齐方法的CIRL作了两个观察，突出显示了从一些重要的细节中抽象出来的CIRL。首先，CIRL算法的性能取决于奖励函数先验的质量。本质上，CIRL将指定奖励函数的问题替换为指定奖励函数先验的问题。其次，计算CIRL问题的最优解是不现实的，由于咱们不能准确地规定用户应该如何与智能体交互。换句话说，CIRL游戏的有效解决方案可能采用一种策略，即先将参数从用户传输到智能体，而后由用户和智能体执行一个普通的RL算法(由于奖励如今对二者都是彻底可见的)。可是若是用户可以观察到他们的奖励函数，他们能够直接将其指定给RL智能体。换句话说,智能体对齐的困难之一是奖励函数不直接提供给用户在第一时间：用户一般不知道他们全部的偏好,而它可能更容易经过揭示偏好进行交流。
然而，CIRL对对齐问题有两个重要的看法，这也激励了咱们的研究方向:
经过构造智能体来优化潜在的奖励函数，能够帮助它们对齐任务。在这些任务中，当智能体访问全部状态-动做对时，咱们没法一致地提供的奖励反馈。
智能体对齐问题的一个关键挑战是找到有效的方法来将用户的意图传达给学习智能体。

7.4 短视强化学习
短视的RL智能体只会最大化当前时间步奖励，而非将来奖励的(折算)总和。这意味着它们更目光短浅，所以没有动机去执行长期规划或采起短时间内很差的行动来得到长期利益。特别是，短视的RL智能体可能不太容易出现3.1节中提到的一些设计规范问题，由于引发这些问题可能须要好几个时间步来补偿智能体。
有两种主要的短视RL算法。TAMER是从人类价值反馈中学习策略的算法集合，即在下一步中采起最大化指望反馈的行动(可能使用短期平滑)。COACH是以优点函数的反馈形式训练策略的算法。
与模仿学习不一样的是，用户不要求可以产生理想行为，只须要奖励能带来理想行为的独立行为便可。例如，使用TAMER或COACH，用户能够教会智能体执行后空翻，而本身却不用会。然而，虽然短视的RL可能会增长对齐，但也会带来性能上的缺陷。训练短视的RL智能体将解决信用分配问题的重担推给了用户，限制了智能体潜在的首创性和性能，也使得用户须要负责避免长期的负面后果。
尽管有这些限制，对于一些信用分配对人类来讲至关容易的任务，短视的RL智能体可能已经足够了。它们也能够做为更强大的训练机制的构建块，例如迭代放大。

7.5 模仿专家推理
另外一种选择是训练一个模型来模仿专家的推理。模仿能够在专家决定的粒度级别上发生，而且能够包括专家一般不会显式执行的“内部”推理步骤。这种专家推理能够获得改进和加速。
最能说明基本思想的是问答系统。系统的输入是一个问题Q，它的输出是一个答案A。为了简单起见，咱们能够将Q和A都视为天然语言字符串。系统能够递归调用自身，询问子问题Q_1,…, Q_k，收到它们的答案A_1,…, A_k，而后把它们组合成答案A。
例如，考虑这样一个问题Q“在丹麦有多少个菠萝?”为了给出一个大概的答案，咱们构造一个费米估计，经过问“丹麦的人口是多少？”，“丹麦人平均每一年吃多少个菠萝？”，“菠萝能储存多长时间？”。而后，这些子问题被递归地回答，它们的答案能够组合成原问题Q的答案。
咱们能够使用与专家推理过程相同的模仿学习(7.1节)来训练一个模型递归地回答问题Q。而后能够使用多种方法对该模型进行改进：
并行和/或以更快的速度运行此模型的多个副本。
不扩展子问题的前提下，训练一个新的模型来预测问题的答案，相似于使用一个值网络来估计树搜索的结果
让专家的推理在反思下更加一致。例如，在专家的推理中寻找不一致之处并加以解决。
若是咱们相信专家推理与用户是对齐的，那么咱们能够但愿获得的改进模型也是对齐的。与递归奖励建模相比，此训练过程旨在实现对最终智能体更好的可解释性和更大信任(第3.2节)。然而，学习专家推理对于递归奖励建模在经济上可能没有竞争力，这取决于专家的推理有多好，以及假设2是否适用于手头的任务。
尽管二者都是更通常的迭代放大框架的实例，3.2节中描述的递归奖励建模并无尝试显式地对专家推理建模。相反，递归奖励建模只要求用户评估结果。然而，它依赖于评估任务的分解，这与此处描述的分解推理有类似之处。在使用递归奖励建模时，用户能够选择对产生结果的认知过程提供反馈，但他们不须要这样作。此外，若是策略模型不是很容易解释，那么在实践中可能很难提供这种反馈。

7.6 辩论
Irving et al.(2018)描述了一种智能体对齐的思想，这种思想涉及一种两我的的零和游戏，两我的都在为用户辩论一个问题。两个玩家轮流输出一个简短的语句，直到回合限制。在游戏结束时，用户阅读对话记录，并宣布提供最真实和最有用的陈述的玩家为获胜者。
辩论方案涉及在这个辩论赛中训练一个具备自我游戏能力的智能体。为了保持对齐，这个智能体须要以一种收敛于纳什均衡的方式进行训练，在纳什均衡中，智能体的两个实例都试图帮助用户。辩论的中心假设是，智能体说真话比说谎更容易。若是这个假设成立，那么游戏的动态应该激励智能体提供真实和有用的陈述。
做者在MNIST数据集上提供了初始实验，其中辩论智能体设法提升稀疏分类器的准确性，该分类器只能访问图像的几个像素。虽然这些初步实验颇有但愿，但还须要进行更多的研究，以肯定辩论是不是一种可伸缩的对齐方法。咱们须要更多的经验证据来澄清如下两个问题。
辩论的中心假设是否存在于容易验证事实的陈述以外？
即便辩论者具备较强的说服和欺骗能力，人们是否可以准确判断辩论？

7.7 其余相关工做
Amodei等人(2016)已经讨论了咱们在这里提出的奖励建模的许多实际挑战：安全探索、分布转移、反作用和奖励黑客攻击。特别是，做者强调了他们所谓的可伸缩的监督问题，即如何训练具备稀疏人工反馈的RL智能体。这能够理解为咱们这里要解决的对齐问题的一个更窄的版本。本着相似的精神，Taylor et al.(2016)调查了一些关于智能体对齐的高级开放研究问题。与咱们的方法最密切相关的是做者所称的知情监督(构建有助于解释结果的系统)、可泛化的环境目标(根据环境状态定义目标函数)和避免工具激励(防止系统对某些不良的子目标进行优化)。
Soares & Fallenstein(2017)提出了一个大相径庭的研究议程。他们的研究问题与范式无关，而是关注数学智能体模型的理论基础。特别是，他们的许多问题旨在解决将当前的最优行为概念应用于其环境的一部分的智能体时所遇到的感知困难，由此并未清晰描述它。做者寻求正式的工具来提出关于或与理论对齐相关的问题，例如提供一个中止的oracle。这些正式的工具对于设计自身升级版本的智能体的正规验证是必要的。然而，尽管在这一研究议程上取得了一些进展，一些问题被证实是至关困难的。可是，即便咱们对Soares & Fallenstein提出的问题有了正式的解决方案，将这些解决方案转移到实际的对齐智能体上仍然存在差距。就目前而言，这些研究问题的答案应该更多地被理解为实际对齐问题的直觉，而不是直接的解决方案自己。

8 讨论
总结。咱们致力于解决的智能体对齐问题的版本,涉及将一个智能体对齐到一个用户(第2节),而不是试图学习整个偏好负载,咱们概述一个方法让用户将本身对手头的任务的意图传达给智能体,以致于让他们相信训练的智能体。
咱们的智能体对齐研究方向是基于可伸缩奖励建模的(第3节)，这个方向很是适合机器学习的现有工做，由于它能够受益于监督学习(对于奖励模型)和强化学习(对于策略)的先进技术。基于之前的工做(第7节),咱们提供更多细节,包括的主要挑战(4节)和具体的方法来减轻这些挑战(第五节)和对咱们训练的智能体创建信任(第6节)。从本质上说,本文结合了在人工智能安全问题上的现有措施，提供了围绕如何解决这些问题能够使咱们训练对齐智能体超出人类级别表现的一个连贯的叙事。

具体的研究项目。咱们的研究方向是为今天的实证研究作好准备的。咱们能够用深度强化学习智能体进行实验：从第4节中得到关于挑战严重程度的经验数据；来自第5节的原型解决方案思想；将奖励建模扩展到更困难的任务；推动(对抗性)测试、可解释性、正规验证和深度RL理论的前沿。此外,咱们能够很容易地使用任何现有的RL基准,好比有预约程序的奖励函数的游戏或模拟环境：经过隐藏这个奖励函数的算法咱们能够伪装它不可用,但仍用它来综合生成的用户反馈以及学到的奖励模型的评估。

前景。ML有巨大的潜力对现实世界和人类生活产生积极影响。因为大多数实际问题均可以在RL框架中进行转换，所以深度RL是解决实际问题的一种很是有前途的技术。然而，为了挖掘其潜力，咱们须要在没有明确奖励函数的状况下对智能体进行训练。正如对计算机视觉系统的鲁棒性的前瞻性研究对于解决对抗性输入的漏洞相当重要同样，对齐研究对于在复杂的现实领域中突破ML系统部署的将来瓶颈也相当重要。目前，对齐智能体的研究还处于早期阶段，但咱们相信有充分的理由保持乐观。当咱们指望在扩展奖励模型面临挑战时，这些挑战是具体的技术问题，咱们能够经过有针对性的研究来取得进展。