“多巴胺思维”—通往AI秘密的钥匙「AI核心算法」

关注:决策智能与机器学习,深耕AI脱水干货

作者:scott.cgi,来源:知乎

专栏地址:https://www.zhihu.com/column/scottcgi

如需转载,请联系作者

编者按:脑科学是启发AI发展的重要源头,多巴胺奖励机制也是行为主义的重要模式,其代表方法就是强化学习方法,作者对多巴胺的认识全面且深刻,本文深入浅出的介绍了多巴胺是如何对大脑控制中发挥了重要作用,跟着作者一起来看看吧。

多巴胺(Dopamine)——它是基因奴役我们的魔药,也是我们自控的旋钮。

本文,将会深入浅出地全面介绍,有关多巴胺如何“操控”我们的演化现实,而透过“多巴胺视角”或许我们会发现,其实我们每个人的人生都是——“多巴胺人生”。

那么,相信本文所提供的“多巴胺思维”与“多巴胺旋钮”两个认知工具,将会让我们对人生及生活,拥有更多的自由感和更大的自控力。

接下来,就让我们开始这次洞见之旅吧。

主题目录:

  • 多巴胺的功能

  • 多巴胺的通路

  • 多巴胺的实验

  • 多巴胺与快乐

  • 多巴胺与学习

  • 多巴胺与演化

  • 多巴胺思维

  • 多巴胺旋钮

  • 结语

  • 后记

多巴胺的功能

多巴胺——主要负责:行为动机、强化学习、运动控制,核心词:奖励预测。

其一,行为动机,就是指我们执行一个行为背后的驱动力。

通常,我们会认为一个行为的发生,取决于我们自由意志的喜好,即:越是喜欢,就越容易去执行一个行为,越是不喜欢,就越困难去执行一个行为。

但在大脑的神经层面,并没有什么自由意志的“实体”,而是多巴胺的浓度,设定了行为发生的难易度。也就是说,多巴胺越多,就越容易触发一个行为(动机强),多巴胺越少,就越难以触发一个行为(动机弱)。

换言之,多巴胺决定了你想要的程度,理论上被称为——激励显著性(Incentive Salience)。

其二,强化学习,是指基于环境信息的反馈,不断调整行为,从而获得最大化的收益。

那么,如果行为带来正反馈(即获得奖励,如快乐),就会触发正强化学习——这是趋利,如果行为带来负反馈(即获得惩罚,如痛苦),就会触发负强化学习——这是避害。

可见,强化学习——就是通过奖励与惩罚,来动态调整行为,以实现趋利避害的机制。

事实上,强化学习(Reinforcement Learning)原本是(人工智能领域)机器学习中的概念,即:通过反馈信号,来评价动作的好坏,以引导“机器”自主地试错学习,并更新模型参数的一种策略(有多种算法实现)。

然后,神经科学家(Wolfram Schultz,Peter Dayan,Read Montague)将其借用来解释,多巴胺在大脑中的一种功能运作。

也就是说,多巴胺是一种神经反馈信号,用来衡量行为结果的好坏(化学奖励是好,化学惩罚是坏),以引导我们的试错学习,并更新可以快速做出趋利避害判断的颅内模型。

现代脑科学研究表明:多巴胺强化学习 = 即时差分学习算法 + 分布式学习。

而相关理论最早在1997年由Wolfram Schultz提出,被称为——奖励预测误差假说(Reward Prediction Error hypothesis,RPE)。

即时差分学习算法(Temporal difference Learning,TD) ——是指在每个时间点上,都在进行预测误差的计算(即:当前预测奖励 - 之前预测奖励 + 当前实际奖励),并将结果代入下个时间点的计算,从而连续调整对奖励的预测(这个预测就是即时差分信号)。其作用是,精准地评估未来可获得的奖励,以动态地调控多巴胺的释放量。

分布式学习——是指不同通道的多巴胺细胞,对预测误差的计算是不同的,或说是独立的。换言之,对同一个奖励信号,不同通道的多巴胺细胞,将会给出不同的预测误差,结果有些得到了正误差(奖励超出预期),有些则得到了负误差(奖励低于预期)。

参看:多巴胺强化学习中的价值分布编码

其三,运动控制,就是运动的自控与调节,比如保持一个姿势,或是执行一个动作,更复杂的就是完成有难度和技巧的运动。

那么,将以上看似无关的三点,串联起来的就是——奖励预测。其逻辑就在于:动机需要预测可能、学习需要预测误差、运动需要预测轨迹。

也就是说,预测到奖励就会有——动机,实际奖励与预测有误差就会有——学习,而任何运动过程都会耗费更多的能量——所以需要动机,同时运动轨迹的精确控制——需要学习。

例如,一种新品冰淇淋,我们没吃过,但脑回路中记录了曾经吃其它冰淇淋时的体验奖励,于是我们就会对新品产生预期奖励,从而就有想吃的动机,并且曾经体验得到的奖励越多,想吃的动机就越强烈,接着通过一系列的运动控制,我们吃到了新品冰淇淋,此时体验奖励与预期奖励就会有误差——正误差我们会学习到新品更好吃(以后吃新品),负误差我们会学习到新品不好吃(以后不吃新品),零误差我们会什么都没学习到(以后不确定吃新品)。

由此可见,多巴胺是先利用先验信息产生行为动机,接着利用运动控制试图消除预测误差,最后则利用强化学习将无法消除的误差更新入先验信息,以备后用。

当然,最最初的先验信息,就是基因算法所编写的本能欲望,就如食物与繁衍,天然就会带来预期奖励。

同理,那些不愉快与痛苦的经历,就会带来预期惩罚,这会降低某些区域的多巴胺的浓度,从而减少动机,抑制行为的发生——但也会增加另些区域的多巴胺浓度,以激活弊害行为的发生。

例如,被热水壶烫过,再次遇到热水壶,就会降低“动机多巴胺”,增加“运动多巴胺”,前者负责减少对触碰热水壶的动机,后者负责增加避免触碰热水壶的运动——从此也可以看出,为什么多巴胺系统是分布式学习,即对同一个信息,不同的多巴胺细胞会学习到不同的结果。

所以,多巴胺所预期的奖励——其实是颅内的化学奖励(即正面感受),所预期的惩罚——其实是颅内的化学惩罚(即负面感受)。

换言之,对于化学奖励我们有追逐的动机,对于化学惩罚,我们有逃避的动机。再换言之,对于好消息(为了追逐)我们喜欢更多——容易忽略已有的利,对于坏消息(为了逃避)我们重视更多——容易记住已有的害。

而实际奖励低于预期奖励,即奖励负误差,也可以看成是一种惩罚——它带来失望情绪,以及降低下次相同行为的动机(或说驱动力)。

那么按此视角,我们会发现,有关多巴胺参与的功能,就都能够解释的通了。

例如,注意力需要行为动机与运动控制(眼球),昼夜节律需要运动控制(身体),情绪感受来自预期误差,时间感知来自运动预测,以及等等。

甚至说,我们每一步的行动都需要奖励,而在执行每一个行为的之前与之时,我们都会一遍遍地预测,以做出选择与判断,并从中学习到更好的决策模型——这背后都需要多巴胺的参与支持。

因此,多巴胺在正常的大脑中,一直都是存在的只是浓度和区域不同,而用奖励预测比奖赏预测更好,因为多巴胺并没有“赏”你什么,而是在“励”你去完成什么。

最后,对于预测与误差,神经科学有这样一种观点,即:预测是大脑中一切活动的“通货”,不同的脑区之间交易的,就是不同种类的“预测”。

换言之,大脑的“预测”是货币,购买的是“误差”,那么“通货膨胀”就是无视误差,“通货紧缩”就是消除一切误差。

而多巴胺,就是买到误差之后,大脑所调配出的一种“神经饮品”。

多巴胺的通路

多巴胺,是一种神经递质,也就是一种化学物质,能够释放多巴胺的神经细胞,被称为“多巴胺神经元”。

在大脑中,多巴胺细胞,主要集中在中脑区域的——基底核(Basal ganglia),而在基底核之中,具体由两个区域——黑质致密部(Substantia nigra pars compacta)和腹侧被盖区 (Ventral tegmental area) ,负责产生多巴胺。

那么,产生的多巴胺,需要投射到其它脑区才能发挥作用,这个投射路径就被称为——多巴胺通路,并且不同的通路会有不同的作用。

多巴胺系统的主要通路有3条,如下:

  • 第一条,中脑皮层通路(Mesocortical pathway)——从腹侧被盖区到 => 前额叶皮层(Prefrontal cortex)、前扣带回皮层(Anterior cingulate cortex)、眼眶额叶皮层(Orbitofrontal cortex)。

  • 第二条,中脑边缘通路(Mesolimbic pathway),又称奖励回路(Reward pathway)——从从腹侧被盖区到 => 伏隔核(Nucleus accumbens)。

  • 第三条,黑质纹状体通路(Nigrostriatal pathway)——从黑质致密部到 => 纹状体(Striatum)。

显然,从通路所抵达的脑区功能,就可以大体看出这条通路的作用,这对应了前文所说的多巴胺的主要3种功能。

  • 第一,中脑皮层通路——负责行为动机,这条通路上的脑区,与复杂认知、逻辑推理、长远计划相关,也就是我们通常所说的理性思维。

  • 第二,中脑边缘通路——负责强化学习,伏隔核被认为主导了奖励、激励和成瘾,因此这条通路除了学习,还能调控重复想要的欲望。当然,控制学习与欲望的基础是,控制注意力。

  • 第三,黑质纹状体通路——负责运动控制,纹状体的功能在于,调节肌肉张力和协调复杂运动,如果黑质细胞死亡就没有多巴胺投射到纹状体,这会导致运动控制相关的疾病,如震颤、癫痫、多动症、帕金森等。

关于中脑皮层通路有一个深刻的洞见,即:理性思维其实是服务于感性思维的,也就是前者为后者提供辅助的决策信息。

哈佛法学心理学教授——乔舒亚·格林(Joshua Greene),认为:

“人所谓的抽象理性思维系统,是位于大脑背外侧前额叶皮层——但背外侧前额叶皮层并不是一个独立的系统,它正好和多巴胺系统紧密地联系在一起。”

我们知道多巴胺代表了动机,而当多巴胺通过中脑皮层通路,被投射到理性思维区域时,其目的(或说效用),就是让理性思维来给动机寻找到一个行动的理由。

例如,同一件事情,我们想做的时候——会找出一堆需要做理由,不想做的时候——同样会找出一堆不需要做的理由,这些理由都是由理性思维,刻意的“后见之明”。

那么,动机越强烈,理性就会越卖力地寻找理由,一旦理由充分,多巴胺就会通过其它通路,激活运动控制与强化学习,并展开行动。

可见,主导我们的一直都只是感性,当然感性动机有多种可能与路径,而所谓理性,只是在“倾听”感性的各种动机,并给出决策依据,以选出“获胜”的感性动机。

有时候,看起来貌似是理性改变(或是抑制)了感性,但其本质只是,理性为一个本来“弱小”(或是潜意识)的感性,找到了强有力的理由,从而让其在感性博弈中胜出。

也就是说,我们都是——根据(感性)感觉找观点,然后根据观点找(理性)理由,而感觉来自环境信息的刺激。

至于那些,忍痛效应与延迟奖励,是预测到未来可能的巨大奖励,致使多巴胺系统战胜了当前的化学惩罚,从而激活了动机、理性、学习与行为控制的神经通路。

血清素——用于惩罚预测误差,低浓度会带来抑郁和自我否定,反之则会感到积极和自我满足。

事实上,多巴胺、奖励、惩罚、动机、想要、欲望等等,都是基因构造的产物,我们一直也只能遵循基因算法的逻辑行事——理性只是一个“配角”。

只不过,理性系统中的智能,是一个可以独立演化的系统,它已经从逻辑角度,看出了本能的种种缺陷与问题,也探索出了各种方法,去对抗本能。

如今,在基因进化之后,顺着人类文明的发展,模因(meme,文化基因)的进化已经拉开了序幕,而智能与本能的博弈才刚刚才开始。

最后,我们还能看出一点,运动控制是一件耗费能量的事情,自然选择要求效能比,因此多巴胺就成为了运动与生存之间的“引导物”——换言之,没有多巴胺指令,我们就不能行动,也没有动机,犹如进入了“待机模式”。

值得一提的是,多巴胺还是去甲肾上腺素的前体,即合成后者需要前者,“类似”爱情是繁衍的前体——当然,某些生物没有爱情也能繁衍,但有些生物没有爱情就会拒绝繁衍。

而去甲肾上腺素负责——注意力、应激反应、运动能力,核心词:立即行动,即:脑内释放去甲肾上腺素(同时体内释放肾上腺素),能够让我们迅速对环境信息,做出反馈行为——如战或逃。

可见,大量的多巴胺不仅带来了强力动机,还配套地为强力行动的“燃料”合成,做好了准备。

多巴胺与实验

多巴胺的功能,并非“空穴意淫”,而是来自动物实验的证据,接下来概括性的,简述几个有趣的动物实验。

第一,行为动机。

成瘾药物会劫持多巴胺系统,使得动物对药物本身产生强烈的动机。在重复给药之后,动物对药物就会产生不可自控的欲望。

但增加或减少脑内多巴胺浓度,并不会改变动物对药物的快感强度,只会改变对药物的欲望强弱。而对动物快感的测量,主要是对它们表情的观察——就如同我们的表情,可以体现我们快乐的程度一样——显然,愉快与狂喜是不一样的。

接下来,如果使用药物,抑制动物脑内的多巴胺合成,它们就会丧失所有的行为动机,甚至——连吃喝的欲望都会消失,以至于饿死渴死,都没有觅食的动力。

欲望与快感的区别在于:前者是想要体验,后者是爽在当下。而拥有高浓度的多巴胺,你会特别想要(行动力爆表),而不会满足当下(心急如焚),并没有快感(只有对快感的预期)。

多巴胺:行为动机实验。

第二,强化学习(使用Pavlovian条件反射,符合Rescorla-Wagner模型)。

奖励预测正误差

  1. 动物听到声音,可以得到糖水,反复训练,直至听到声音就会去糖水区。

  2. 针对(1)的动物,把声音替换成「听到声音 + 看到灯光」,然后重复(1)的训练。

  3. 针对(2)的动物,给与灯光,动物不会去糖水区。

  4. 重复(2)的训练,给与两倍糖水。

  5. 针对(4)的动物,给与灯光,动物会去糖水区。

  6. 重复(2)的训练,但激活多巴胺。

  7. 针对(6)的动物,给与灯光,动物会去糖水区。

给与,是物质上的;给予,是精神上的。

以上实验说明:

  • 「声音与糖水」建立奖励预测。

  • 「声音 + 灯光」给与预期奖励,即:预测零误差,无法学习「灯光与糖水」的关联。

  • 「声音 + 灯光」给与两倍奖励,即:预测正误差,可以学习「灯光与糖水」的关联。

  • 「声音 + 灯光」给与「预期奖励 + 激活多巴胺」,即:创造预测正误差,可以学习到「灯光与糖水」。

结论:多巴胺浓度的正误差,带来了学习,即:奖励预测正误差,学习关联性。

多巴胺:奖励预测正误差实验。

奖励预测负误差

  1. 动物听到声音,可以得到糖水,反复训练,直至听到声音就会去糖水区。

  2. 动物看到灯光,可以得到糖水,反复训练,直至看到灯光就会去糖水区。

  3. 动物「听到声音 + 看到灯光」,可以得到单份糖水,反复训练,直到「听到声音 + 看到灯光」就会去糖水区。

  4. 针对(3)的动物,给与声音,动物停留在糖水区的时间下降,说明对声音的反应强度降低。

  5. 重复(3)的训练,但给与两倍糖水。

  6. 针对(5)的动物,给与声音,动物停留在糖水区的时间不变,说明对声音的反应强度不变。

  7. 重复(3)的训练,但给与两倍糖水,同时抑制多巴胺。

  8. 针对(7)的动物,给与声音,动物停留在糖水区时间下降,说明对声音的反应强度降低。

以上实验说明:

  • 「声音与糖水」和「灯光与糖水」分别建立奖励预测。

  • 「声音 + 灯光」给与单份奖励,即:预测负误差,可以学习降低「声音与糖水」的关联。

  • 「声音 + 灯光」给与预期奖励,即:预测零误差,无法学习降低「声音与糖水」的关联。

  • 「声音 + 灯光」给与「预期奖励 + 抑制多巴胺」,即:创造预测负误差,可以学习降低「灯光与糖水」的关联。

结论:多巴胺浓度的负误差,带来了学习,即:奖励预测负误差,学习无关性。

多巴胺:奖励预测负误差实验。

那么,抽象概括来看,我们可以得到以下关系:

  • 预期0,奖励 1,误差 1——多巴胺细胞兴奋。

  • 预期 1,奖励 1,误差 0——多巴胺细胞静息。

  • 预期 1,奖励 0,误差-1——多巴胺细胞抑制。

综上可见,多巴胺控制了我们的——想要与学习,以及执行想要与学习的行为。

当然,“想要”看起来就是喜欢,但其实想要并不是喜欢,更不是快乐,甚至不喜欢、不快乐,但依然可以想要。

多巴胺与快乐

通过前文的论述,多巴胺与快乐的关系已经显而易见,即:多巴胺是对快乐的预测,有多巴胺不一定快乐,但快乐一定会有多巴胺。

首先,有多巴胺没快乐,即是有想要快乐的欲望,但快乐只是预测到的可能性,还没切实得到(或说切身体验)。

例如,吃糖会快乐,想到吃糖就会激活多巴胺对快乐的预测,于是就会想找糖吃,但找糖吃只是欲望,吃到糖才真有快乐。

例如,强迫症患者,常常会做出重复性的动作,此时多巴胺系统的整体兴奋,会让他们难以停止行为,但又没有任何获得快乐的可能。

再例如,很多人因为爱情,会憧憬和对方在一起的未来,而多巴胺系统对于繁衍从不吝啬,于是原来做不到的事,也就能够做得到了,比如健身、减肥、学习、工作等等——这些都是延迟奖励(即奖励在未来),而在当下更多的是不快乐地忍痛。

这意味着,人可以追求没有结果的事情,只要有多巴胺,也可以无视有结果的追求,只要没有多巴胺。

其次,有快乐就会有多巴胺,这也是为什么,最初人们会觉得多巴胺就是快乐本身的原因。但为什么快乐一定会有多巴胺呢?

这是因为,在获得快乐之后,奖励预测误差就会出现,多巴胺开始驱动强化学习,即:如果快感上升,就要学习趋利,快感下降就要学习避害,快感不变就要学习路径。

同时这也解释了,为什么我们在做快乐的事情时(如游戏和繁衍),难以中断停止,充满了不顾一切都要继续的动力。

例如,像情不自禁地看美女,就是为了维持快乐,多巴胺系统会控制身体、头部与眼睛,跟随美女的运动轨迹,否则就会出现奖励预测误差,并让我们产生有消除这个误差的欲望——至于为啥看美女就会快乐,还不是因为基因想要繁衍,而繁衍的前提就是“锁定目标”,基因会奖励繁衍路径上的“点点滴滴”,即可能促成繁衍的所有操作。

最后,在得了某些精神疾病的情况下,才会出现有快乐没有多巴胺的非常正常情况。

例如,抑郁症,不是感觉不到快乐,只是没有追求的动力,觉得一切都没有意思,这和多巴胺系统低迷关系密切。

但问题在于,无法去追求快乐,就不会获得快乐——这就像给你很多钱,但你又没有途径去消费——你还能快乐吗?所以,抑郁症只有无欲无求的死灰之感。

综上可见,如果要用一句话来形容,多巴胺与快乐的关系,我觉得就是:“声色犬马学的快,纵情声色难自控”——前者是:预测快乐 + 强化学习,后者是:维持快乐 + 强化学习。

因此,我们可以洞见到——贪婪只是欲望(奖励预测),适可而止才能快乐(减少误差),否则凡事太尽(误差太大),快乐势必早尽(不可抵达)。

多巴胺与学习

人类最重要的能力,就是学习能力,而学习的关键在于好奇心,如果没有好奇心,就会不想学、也学不进,如果被迫学习,就会学不好、也学不会,并且还会滋生各种负面情绪。

《洛莉塔》(Lolita)的作者——弗拉基米尔·纳博科夫(Vladimir Nabokov),曾说过一句话:“好奇心是反抗最纯粹的形式。”——这里反抗的可以是任何一种秩序,如常识、常理、惯常、主流、亦或是传统,显然这也是学习的副产物之一。

那么,好奇心来自于何处呢?

其实是来自于——不确定性。准确地说,完全确定我们就会感到无聊,完全不确定我们就会莫名恐惧,确定小于不确定我们就会感到风险,只有确定大于不确定,才能够让激发我们的好奇。

而如果我们对一个事物充满好奇,或一个事物能够令我们持续地好奇,我们就会情不自禁地喜欢,接着喜欢又会激发更多的好奇,好奇继续加深喜欢。

显然,一旦有了好奇与喜欢的回路增强,我们就能够拥有兴趣与热情,进而就会更容易沉浸在心流之中,而心流——就是学习的“终极生化武器”。

那么从多巴胺的角度来看,不确定性会带来预测误差,这个误差就会激活多巴胺,带来动机,动机会驱动行动,行动产生反馈,反馈关联到颅内的“化学奖励”,进而激活学习,最终消除预测误差——完成多巴胺系统的回路训练。

事实上,「好奇、喜欢、兴趣、热情」其实都是为了消除“预测误差”的多巴胺效应。

例如,眼睛进入了一只小飞虫,想揉眼睛的预测误差就会在大脑中涌现,除非执行这个动作消除误差,否则这个“误差感”就会一直存在——并不断试图掌控你的行为。

例如,过敏性的奇痒,抓挠可以消除痒感误差,但过程会带来疼感误差,结果这两种“误差感”会形成一个动作循环,即:痒了抓,抓了疼,疼了停,停了痒,痒了再抓,等等——难以自控,又不能自已。

那么,「好奇、喜欢、兴趣、热情」所代表的预测差异,就在于:

  • 好奇 = 熟悉 + 不确定的奖励,如:猫好像能说话。

  • 喜欢 = 熟悉 + 意外的奖励,如:猫真的能说话。

  • 兴趣 = 熟悉 + 确定的奖励,如:猫经常和你说话。

  • 热爱 = 熟悉 + 确定的高奖励,如:猫说的都是你爱听的话。

由此可见,「熟悉 + 奖励」就是「好奇、喜欢、兴趣、热爱」的底层逻辑,其中「熟悉」代表着已有的确定性,「奖励」代表着预期的不确定性,而学习的动机——就是确定不确定性奖励的欲望。

需要指出的是,兴趣与热爱的奖励路径是确定的,此时多巴胺的意义是——维持奖励路径,消除预测误差,如成瘾行为中的难以自拔——同时这也是我们能够,不断重复兴趣与热爱的原因所在。

那么,如果(脑回路)确定奖励存在,但又不确定必然的路径,这时多巴胺系统就会激活,以进行强化学习。

例如,斯坦福大学的神经科学家——罗伯特·萨波尔斯基(Robert Sapolsky)发现:当我们查看自己的社交网络时,有时候会发现回复,有时候没有,下一次查看时又有了评论或赞赏,这时大脑中的多巴胺,会有400%的激增。

萨波尔斯基将这种——“戏弄”的不确定性,称之为“可能性的魔力”,其分散一个人注意力的程度,竟然已经达到了上瘾的程度。

事实上,为了消除不确定性,多巴胺不仅能让人感到兴奋,并快速做出行动,还能够加深神经元的连接,让脑回路可以更好地记忆和计算,以减少未来的预测误差。

在《盗火》一书中,经过脑科学相关的调研,作者指出:

“在非寻常状态中(即出神时),多巴胺通常会大大增加,而前额叶皮层的活动则骤然减少。突然之间就能找到,以前从未想到过的思想之间的联系。那些联系中,有些是合理合法的灵感,有些则是天马行空的想象一滑而过。”

而在2009年,瑞士神经科学家——皮特·布鲁格(Peter Brugger)发现:神经系统中含有更多多巴胺的人,相信秘密阴谋与异形绑架的可能性会更大。这些人正遭受着一种被富有意义的巧合所征服的趋向,而且常常会察觉到一些其他人浑然不觉的模式。

显然,神经元连接的增强(尤其是遥远连接的增强),不仅带来了创造力,同时也提高了我们模式识别的能力,也就是发现规律和意义的能力。

换言之,如果多巴胺不足,我们就会找不到规律和意义;相反,如果多巴胺过多,本没有规律和意义,我们也会强行找出规律和意义。

由此可见,多巴胺就像是大脑学习引擎的“燃料”,太少就无法驱动引擎(欠拟合),太多又容易学到虚幻(过拟合),只有适量才能准确有效地消除预测误差。

至此,我们会发现多巴胺的作用,其实并不是奖励最大化,而是最小化预测误差,即:如果奖励正误差高,就会调高预期,如果奖励负误差高,就会调低预期,如果奖励与不确定性都高,就会有不切实际的预期。

例如,博彩的不确定性高奖励,就会导致多巴胺过多,让人找到其中“确定”的中奖规律,而总结成功人士的成功规律,除了后见之明,就是预期奖励产生多巴胺的功效。

但换个角度来看,虽然最小化预测误差,不一定是奖励最大化,但却是可获得利益的最大化——因为奖励与风险成正比——这是自然选择的结果,也是多巴胺强化学习的优势所在。

多巴胺与演化

事实上,大脑时刻都在使用环境信息,来校准颅内模型,以不断提高对未来的预测能力。

在数学上,这就像是一个贝叶斯推理的迭代过程,即:不断使用新信息来更新先验概率,从而迭代出更为准确的预测概率。因此有很多人认为,贝叶斯推理就是我们大脑的工作机制,而我们的大脑其实就是一个“贝叶斯大脑”。

那么,在生物学层面,用来实现贝叶斯推理的神经引物,就是基因对多巴胺细胞的编码——奖励预测误差(Reward Prediction Error,RPE)。

显然,在环境信息与颅内模型之间,必然会存在预测误差,当多巴胺消除这个误差之后,即意味着,颅内模型更新了对环境信息的认知,并将其存储为先验动机,以指导对未来的预期与决策。

换言之,多巴胺利用环境信息的反馈,消除了大脑对未来预测的不确定性——这正是信息论中“信息可以消除不确定性”的——生物版实现。

那么不难想象,在演化过程中,具有可迭代的预测能力,一定是具有选择优势的,所以多巴胺系统就顺理成章的,成为了基因“必备”的控制系统,而多巴胺,则就成为了基因控制“生存机器”的魔药。

从前文的实验来看,动物对奖励会有预期,预期偏差会校准它们的行为,这完全是多巴胺系统调控的结果——有趣的是,纵观多巴胺的动物实验,就像是人类的“多巴胺”(行为)可以预测到动物的“多巴胺”(行为)一样。

接着更进一步,顺着演化视角,我们会恍然发现——从动物进化到智人,强大的多巴胺“预期”仿佛也一起发生了进化,即:从“预期”生存与繁衍,演变成了“预期”想象与虚构。

换言之,智人的多巴胺系统与自我意识地结合,(在月明星稀的篝火旁)让“预期”进化出了“故事”。

自此之后,多巴胺就可以驱动智人,为了故事中想象出的预期奖励,而试错学习忍痛合作,以及做出任何以前“想都不敢想”的事情——此时限制智人行动的,就只剩下了编织故事的想象力。

或许,正是因为故事与现实之间的预测误差——有着天壤云泥之别,所以人类才可以创造出自然界中“不可预见”的事物。

那么,回到演化视角,事实上时至如今,基因通过多巴胺,依然在控制着我们每一个人,而利用“多巴胺思维”,我们将能够更加深入地看清人生更多的真相。

多巴胺思维

所谓,多巴胺思维,就是把多巴胺看成是基因奴役我们的魔药,其关键点就在于把握住——奖励与误差。

首先,表面上奖励就是快感,但本质上是基因所编写的算法——如盐、糖、脂肪、繁衍等,可称之为“先验奖励”,以及算法冗余性所带来的“意外”激发物——如药物、宗教、运动、设备等,可称之为“后验奖励”。

其中,先验奖励相当于是“出厂”内置的,可以直接激活多巴胺,而后验奖励则是后天习得的——也就是说,对待某个事物,本来不会激活多巴胺,但一旦体验过奖励之后,就习得了对它的奖励预测,如:极限运动与药物成瘾。

为什么吃喝繁衍,做起来如此容易毫不费力,而工作学习,却做起来如此困难耗时费劲?

显然,前者是先验奖励,后者是后验奖励,你得体验过工作学习的奖励(越多越好),才能建立起多巴胺对它的“预测强度”,而总是体验到痛苦或不愉快(得不到奖励),多巴胺不仅不会激活,还会抑制,从而降低你的行动力。

需要指出是,后验奖励也要通过先验奖励的预设路径才能起效,因为奖励落实到神经层面,都是相同的神经反馈,如:花生四烯乙醇胺与内啡肽,而基因算法的“Bug”就是冗余性带来的毫无生存意义的奖励,如:迷幻蘑菇与颅内电击。

其次,再看误差,为什么人性,对变化(或说新鲜感)有着不可磨灭需求?为什么缺少变化,我们就会感到无聊与乏味?为什么重复某些行为会让我们上瘾,而另外一些则会让我们痛苦?

事实上,在这些不同场景不同感受的背后,统统都指向了“魔药多巴胺”——因为,变化即会带来预测误差,而多巴胺的作用就是消除误差,所以:

  • 如果变化指向确定奖励,就会感到——兴趣与热爱。

  • 如果变化指向意外奖励,就会感到——好奇与喜欢。

  • 如果变化指向不确定性,就会感到——排斥与抗拒。

  • 如果变化指向没有变化,就会感到——无聊与乏味。

由此再看,强化学习,其实它动态设定了“奖励感”——这取决于最终奖励获得的情况,包括即时性、可能性和预测误差。换言之,确定的小奖励(奖励感高)会比不确定的大奖励(奖励感低),激发更多的多巴胺。

因此,就如前文所说,多巴胺学习的目标不是奖励最大化,而是利益最大化,即:奖励与耗能比率的最优。

所以,太困难、太复杂、太辛苦、太耗时等等,都会拉低我们对预期奖励的渴望,进而感受到多巴胺浓度降低所带来的「排斥、抗拒、无聊、乏味」——尽管我们(的智能)知道,忍痛效应与延迟奖励,在未来将会有巨大的奖励,但也无法改变“多巴胺现实”。

更或许,永远无法消除的预测误差就是——遗憾,即:整个人生都将为这个误差,而处在永复往返地负强化学习之中。

那么相反,习以为常亦或是习惯了的感觉,就是因为预测误差不存在了。

例如,经历过至暗时刻,我们就不会再害怕黑暗——就是因为黑暗,已经无法再让我们产生预测误差。

最后,从某种角度来看,脑神经科学是心理学的源头,心理学是心理痛苦的解药,因此可以说,所有的心理痛苦,都可以在脑神经科学中找到解答,而奖励预测误差,就是大部分心理痛苦的神经根源所在。

因此,降低奖励预测,就可以缓解很多的心理问题,但奖励预测真的可以“手动”降低吗?

多巴胺旋钮

很多人,都无法控制自己的欲望,进而就无法控制自己的行为,最终就无法得到想要的结果,其实这都是被“魔药多巴胺”控制的表现和结果。

而有了多巴胺思维,我们就应该将——欲望与目标区分开:欲望是先验奖励,来自本能的预测;目标是后验奖励,来自智能的预测。

重要的是,相对于智能模型,本能模型是短视与陈旧的,满足欲望的结果未必是好的,例如无法自控地上瘾,这是多巴胺系统被劫持的表现,属于基因算法无法适应当今时代的缺陷,因为「盐、糖、脂肪」早已不再是稀缺资源,「药物、设备、网络」是丛林时代所没有的,而本能预测却没有及时地调整策略。

相反,智能模型是长远规划与快速更新的,因为它来自神经网络的逻辑推理与强化学习,就像健身会遭遇反复的疼痛,开始本能会强烈地排斥,但长期健身必会受益,最终在获得巨大的后验奖励之后,连本能也会支持智能的决策。

事实上,就如前文所说,欲望带来的是想要,没有奖励只有不得的焦虑,而目标就像是智人脑海里编织的故事,充满希望又不那么急切——显然,前者是短期的生存目的(动物都有),后者是长期的生存意义(人类才有)。

那么,面对本能所带来的欲望,除了“忍痛”,还有更好的方法吗?

其实,控制本能欲望的关键,就在于对多巴胺的调控,而调控多巴胺的关键,就在于找到那个——“多巴胺旋钮”。

由前文可知,与多巴胺浓度密切相关的是“奖励感”,而它就是调控多巴胺的“旋钮”。

换言之,欲望控制执行了某个行为,欲望就想从某个行为中获得奖励,如果这个奖励被“打断”(即奖励感降低),就会削弱欲望的动机——也就是降低了多巴胺的浓度。

例如,动物触碰机关就会得到食物,经过多次训练,动物就会产生触碰机关的欲望,而消除它欲望最快的方法,不是在它触碰机关的时候电击它(惩罚),而是在触碰机关后什么也得不到(打断正反馈)——可见没有奖励的欲望,其脑回路就会(为了节能而)被重塑。

而打断「欲望奖励循环」的方法有很多,例如:

  • 转移注意力——运动、游戏、看剧、吃东西,

  • 切换新欲望——做另一个特别感兴趣的事情,

  • 激发目标感——用故事唤醒脑回路中的意义,

  • 等等。

关键点就在于,让欲望得不到满足,以削弱多巴胺系统对奖励的正向预测。

那么,换个角度,“多巴胺旋钮”除了逆时针减弱——本能欲望,还有顺时针增强——智能目标。

例如,长远规划、延迟奖励、冒险试错、承担风险、经历失败,等等,都需要逆转多巴胺系统的低迷,才能激发爆表的行动力,然后不断进步逼近目标,而方法还是调控“奖励感”。

按照规律,奖励感 = 即时性 + 可能性 + 预测误差,但智能目标必然是:高延迟 + 低可能的——这还如何提高奖励感呢?

解决方案就是:创造短期的小目标,获得即时的正反馈,训练高效的脑回路。

具体方法,就像查尔斯·都希格(Charles Duhigg),在《习惯的力量》中所说的,养成好习惯需三个东西:

  • 第一,线索(Cue)——启动习惯,遇到相应事情。

  • 第二,例程(Routine)——训练习惯,执行具体动作。

  • 第三,奖励(Reward)——完成习惯,要给与正反馈。

而养成好习惯,还有一个额外的好处,就是习惯回路一旦建立,打破习惯就会受到化学惩罚——这是对抗欲望强有力的“化学武器”。

最后,在“奖励感”中,最易调节转动的变量——就是预测误差,即变化(或说意外)。

所以,若想快速转动“多巴胺旋钮”,对于简单重复的行为——可以用时间间隔来获得变化(意外),而对于复杂艰难的行为——可以用深入探索来获得变化(意外)。

那么,无论是(逆时针转动)抑制欲望,还是(顺时针转动)追求目标,必不可少的一步都是,在变化过后一定要注入——正反馈的奖励,因为它能带来回路增强的,动机、学习和控制,否则大概率会遭遇到,无聊、懈怠和失控。

例如,要把事情做到极致的“十倍思维”——就是要创造远远超越市场的变化阈值,从而能带给用户非凡的正反馈奖励,这样一下就能让用户的多巴胺激增,从而获得他们的注意力、好奇心与新鲜感,进而获得他们的情绪认可与追逐偏好——相反,不够极致(即多巴胺激发不足),就学习不到——“你是谁,你有何不同?”,那么——“为何选你?”。

结语

拥有多巴胺思维,可以看清很多很多事情和行为,简直就像打开了新世界的大门,而使用多巴胺旋钮,可以获得更多的自由与自控,简直就像进入了一个新世界。

那么,进入了新世界,就可以问出一个新问题,即:大脑的奖励系统,到底是谁在奖励谁呢?

答案,是基因在奖励神经、大脑、以及意识,因为整个奖励系统的运作都是基因编码的表达,其中自然也包括多巴胺的“奖励预测算法”。

事实上,人类的行为动机和强化学习,其多巴胺编码都是基因亿万年的进化积累,虽然很多策略已经略显过时,但其深邃的以时间和存亡为代价打磨出的逻辑,仍然在左右着我们与各种环境的交互。

甚至我们引以为豪的智能,也只能在本能所预设的环境范围内演化——试想,学习研究与探索发现,需要在“多巴胺感受”(即好奇、喜欢、兴趣、热情)的指引下才能进行,我们就能够看清这一点。

要知道,基因利用穷举启发法演化出了无数算法,而经过几十亿年的迭代试错,留存的“适者算法”可以打败所有的逻辑推理,以及刻意练习。

例如,微生物水熊虫,通过迭代试错“构建”出了——损坏抑制蛋白(Damage suppressor protein,Dsup),以保护DNA免受极端环境的压力冲击,结果水熊虫对极端环境(如高压、高温、高辐射、以及低温与真空),有着超越生命极限(与人类想象)的耐受性。

显然,人工智能还没有亿万年生死压力下的积累,而人类智能在本能的制约下将会走向何处,也充满未知,但智能的未来可期,这是演化逻辑(整体熵增局部有序)的选择,不是吗?

回到目前,大部分人,都只能在基因的奴役下,跟随自己的多巴胺行事,而不自知——因为多巴胺赐予了我们动机、想要、渴望与欲望——同时我们也会把这些,就当成自己不容置疑的目标。

坏消息是:多巴胺通路告诉我们,理性是要服务于感性的,所以只要欲望与想要,持续的时间足够久,理性就一定会说服自己,找到行动的充分理由的。

好消息是:虽然多巴胺系统是一个二级混沌系统,具有二级效应,也就是说,你在被多巴胺驱动的时候,无法想象和感受到没有的时候,但智能可以从逻辑角度,推理并理解到。

例如,人总是喜欢从享乐角度,去设想未来,但真到了设想的未来,感受就变了,接着新的设想就会出现,行动随之而变,结果就可能打破从前的想法与设定,并会为此找出一堆理由。

那么,我们可以管理自己的预期(管理自己的想象),掌控自己的欲望吗?

从演化角度来看,学习 = 突变 + 选择——多巴胺的条件反馈就是突变,而如何选择突变,则决定了学习,接着学习决定了能力,能力决定了路径,路径决定了未来。

而一个人的行为,可以看成是其自身一套稳定的演化系统,最大化自身利益的过程——这套系统是本能与智能的博弈,充满了偏差与偏好,最终落实在了心智对多巴胺的妥协与服从之上。

那么,多巴胺思维与多巴胺旋钮,就是来自智能的逻辑与选择——运用它们,将让我们成为基因奴役下的一个“觉醒者”。

事实上,几乎所有强者的共同秘密,就是:动机 + 专注 + 学习——这全系于多巴胺的调控——这是基因的魔药,同样也是“觉醒者”的魔药。而有时候,利用魔药消除内心世界的“误差感”,其实就是改变世界的过程。

最后一点,神经现实,其实就是基因在你颅内编码的故事,你可以顺应这个故事,也可以改写这个故事,一切都在于你的选择……不是吗?

后记

在微观,同样都是无差别的“多巴胺浓度控制”,对应到宏观的行为表现,会有什么本质的区别吗?

换言之,学习、健身、努力就一定比,娱乐、吃喝、繁衍更高级吗?看书比看片、解题比追星、工作比生活的高级感是从何而来的呢?

其实是路径,准确地说是“多巴胺路径”,因为不同的路径,将会“引领”我们走向不同的未来,而让人感到高级的,正是那条路径可以通向的“未来”。

但在此不要忘了,路径会有历史依赖,即历史路径依赖,或许“多巴胺魔药”的可控与不可控性——早在受精卵,不,是在“创世纪闪光”(即宇宙大爆炸)的时候,就已经被设定。

那么更或许,在化学感受面前,人们根本不知道“未来”有多远。

历史精华好文

交流合作

请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。