原文地址:算法
baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc网络
---------------------------------------------------------------------------------------------框架
上周,DeepMind在 Nature 发表论文,用 AI 复现大脑的导航功能。ide
今天,DeepMind 在 Nature Neuroscience 发表新论文,该研究中他们根据神经科学中的多巴胺学习模型的局限,强调了多巴胺在大脑最重要的智能区域即前额叶皮质发挥的总体做用,并据此提出了一种新型的元强化学习证实。DeepMind 指望该研究能推进神经科学自 AI 研究的启发。性能
近期,AI 系统已经掌握多种视频游戏(例如 Atari 的经典游戏 Breakout 和 Pong)的玩法。虽然其表现使人印象深入,但 AI 仍然依赖于数千小时的游戏经验才能达到并超越人类玩家的表现。而人类仅需数分钟就能够掌握视频游戏的基本玩法。学习
对大脑何以能在如此少的经验下学到那么多这一问题的探究推进了元学习(meta-learning)或「学习如何学习」理论的发展。人们认为咱们是在两个时间尺度上学习的:短时间学习聚焦于学习特定实例,长期学习主要学习抽象技能或用于完成任务的规则。正是该组合帮助咱们高效地学习,并在新任务上快速灵活地应用知识。在 AI 系统中从新建立这种元学习结构,即元强化学习(meta-RL),已被证实在推进快速、单次的智能体学习中卓有成效(参见 DeepMind 论文《Learning to reinforcement learn》以及 OpenAI 的相关研究《RL2: Fast Reinforcement Learning via Slow Reinforcement Learning》)。然而,大脑中容许该过程的特定机制目前在神经科学中基本未获得解释。测试
在 DeepMind 刚发表在 Nature Neuroscience 的新论文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中开发出来的元强化学习框架来探索大脑中的多巴胺所发挥的帮助学习的做用。多巴胺是人们所熟悉的大脑快乐信号,一般被认为是 AI 强化学习算法中使用的奖励预测偏差信号的类比。这些系统学习经过反复试错来行动,这是由奖励推进的。DeepMind 指出多巴胺的做用不只仅是使用奖励来学习过去动做的价值,它发挥的是总体做用,特别是在前额叶区域,它容许咱们高效、快速和灵活地在新任务上学习。编码
研究者经过虚拟重建神经科学领域中的六个元强化学习实验来测试该理论,每一个实验须要一个智能体使用相同的基础原则或技能集(但在某些维度上有所变化)来执行任务。研究者使用标准的深度强化学习技术(表明多巴胺)训练了一个循环神经网络(表明前额叶),而后对比该循环网络的活动动态和神经科学实验以前研究成果的真实数据。循环网络是很好的元学习代理,由于它们能够内化过去的动做和观察,而后在多种任务训练中利用那些经验。人工智能
DeepMind 重建的一个实验是 Harlow 实验,这是一个 1940 年代出现的心理测试,用于探索元学习的概念。在原始测试中,向一组猴子展现两个不熟悉的物体并让它们进行选择,只有一个物体能带来食物奖励。这两个物体被展现了 6 次,每次展现中两个物体的左右位置都是随机的,所以猴子必须学会哪一个物体能带来食物奖励。而后,它们被展现了两个全新的物体,这时也是只有一个能带来食物奖励。经过该训练过程,猴子发展出了一种策略来选择奖励相关的物体:它学会了在第一次选择时进行随机选择,而后基于奖励反馈选择特定的物体,而不是左边或右边的位置。该实验证实了猴子能够内化任务的基础原则,并学习一种抽象的规则结构,即学会学习。
DeepMind 使用虚拟计算机屏幕和随机选择的图像模拟了一个相似的测试,他们发现「meta-RL agent」的学习方式与 Harlow 实验中的动物很是类似,这种类似性即便在展现彻底没见过的全新图像时也会存在。
在 DeepMind 模拟的 Harlow 实验中,智能体必须将关注点移向它认为与奖励相关的目标。
实际上,DeepMind 研究团队发现 meta-RL 智能体能 快速学习适应 有 不一样规则和结构的大量任务。并且因为该循环神经网络学习了如何适应多种任务,所以它还学到了如何高效学习的通用法则。
重要的是,研究者发现大多数学习发生在循环网络中,这也支持了 DeepMind 的假设,即多巴胺在元学习过程当中扮演的角色比之前认为的更重要。传统观点认为,多巴胺增强前额叶系统中的突触联系,从而强化特定的行为。在 AI 中,这一现象意味着,随着相似多巴胺的奖励信号学习到解决任务的正确方式,它们会调整神经网络中的人工突触权重。然而在通常的实验中,神经网络中的权重是固定的,这意味着权重在学习过程当中不能进行调整。
模拟循环网络中编码动做和奖励历史的独立单元。
所以,DeepMind 研究团队提出了 meta-RL 智能体,它能解决并适应新的任务。这种智能体代表相似多巴胺的奖励不只用于调整权重,它们还传输和编码关于抽象任务和规则结构的重要信息,使得智能体可以更快适应新任务。
长期以来,神经科学家们发现前额叶皮质中有相似的神经激活模式,这种模式适应速度快且灵活,但他们一直找不到一个合理的解释。前额叶皮质不依赖缓慢的突触权重变化来学习规则结构,而是使用在多巴胺中直接编码的基于模型的抽象信息,这个思路为其多功能性提供了更合理的解释。
为了证实致使人工智能元强化学习的关键因素也存在于大脑之中,DeepMind 研究者提出了一个理论。该理论不只符合多巴胺和前额叶皮质的现有知识,并且也解释了神经科学和心理学的一系列神秘发现。尤为是,该理论揭示了大脑中如何出现结构化的、基于模型的学习,多巴胺自己为何包含基于模型的信息,以及前额叶皮质的神经元如何适应与学习相关的信号。对人工智能的深刻了解能够帮助解释神经科学和心理学的发现,这也强调了领域之间能够互相提供价值。放眼将来,他们指望在强化学习智能体中设计新的学习模型时,能够从特定的脑回路组织中得到许多逆向思惟的益处。
论文:Prefrontal cortex as a meta-reinforcement learning system
论文地址:https://www.nature.com/articles/s41593-018-0147-8
预印论文地址:https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf
摘要:过去 20 年来,对基于奖励学习的神经科学研究已经收敛到了一类规范模型上,其中神经递质多巴胺经过调整神经元之间突触链接的强度在情景、动做和奖励之间创建关联。然而,近期出现的许多研究向这个标准模型提出了挑战。咱们如今利用人工智能中的近期进展来引入一种新的基于奖励的学习理论。这里,多巴胺系统训练了另外一个大脑区域——前额叶,来将其做为独立的学习系统。这个新的研究视角适应了启发标准模型的那些发现,而且还能很好地处理宽泛的经验观察,为将来的研究提供全新的基础。
上图展现了 meta-RL 在多个 episode 上学习如何高效地学习每个 episode。
其中 a 为智能体架构、b 为 DeepMind 模拟中实现的具体神经网络结构、c 为试验模型在带有伯努利奖励参数的摇臂赌博机问题上的行为、d 为 meta-RL 网络在摇臂赌博机问题上独立训练的性能,最后的 e 为循环神经网络激活模式在独立实验中的进化可视化。
------------------------------------------------------------------------