深度学习的灵感起源多是神经科学,但近年来的发展毫无疑问已经自成一派,(几乎)与神经科学无关了。机器学习专家们感兴趣的是如何进一步优化他们的算法;神经科学家们则更想知道人脑,而非深度网络们,是如何工做的。算法
这一 “大脑电路” 图像同时被计算机学家们和生物学家们两方面所摈弃——它既不是一副真正的深度网络结构图,也不能描绘大脑的工做原理。bootstrap
Konrad Kording 试图改变这一趋势,重启神经科学和机器学习之间的对话。他与 Adam Marblestone (MIT Media Lab) 以及 Greg Wayne (Google Deepmind) 合做的文章《走向深度学习与神经科学的结合》阐述了这一理念,6月存档于bioRxiv,9月发表于《计算神经科学前沿》。promise
一些读者可能看过 神经科学家能理解微处理器吗?大数据时代神经科学的理论困境,也是介绍 Kording 的做品。若是说上一篇文章提出了一个尖锐的问题——神经科学现有研究手段是否使人满意——这篇文章或许能够被看做是提出了解决问题的可能途径之一:采纳深度学习中发展出的思想来研究大脑。文章很长,涉及的内容较多,在这里先只介绍整体思路,许多分支尽管有趣会暂时略过。十分推荐阅读原文(开放访问)。网络
做者首先指出现代机器学习的三个特征:app
指出上面的三个机器学习特征后,做者提出了三个假说:框架
老实说,我6月份看到这里的感受是——机器学习
好坑爹!分布式
看上去这像是又一篇空洞而无解释力的脑洞文章:成本函数是一个特别宽泛的概念,为神经系统的活动找到成本函数很平凡。假说二明显是个补丁嘛!找不到全局成本函数就说是局部的,又怕时间上不稳定就说是发展的结果。。。假说三什么都没说啊,脑区专业化分工谁不知道?ide
就这样,我把文章丢到一边。隔了三个月文章竟然过了评审,才又下了新版原本看。模块化
此次我先跳到最后看告终论,结果一会儿就被吸引住了:
In other words, this framework could be viewed as proposing a kind of “society” of cost functions and trainable networks, permitting internal bootstrapping processes reminiscent of the Society of Mind ( Minsky, 1988). In this view, intelligence is enabled by many computationally specialized structures, each trained with its own developmentally regulated cost function, where both the structures and the cost functions are themselves optimized by evolution like the hyperparameters in neural networks.虽然只不过是换了句话来讲,不知怎么就以为很符合直觉了。也许是闵斯基的大名加持,不过更可能的是成本函数用生物学家的话来讲就是驱动力 (drive),而驱动力的多元化是我最近刚好在思考的一个问题。
换句话说,这一框架能够被当作是一种由成本函数和可训练网络所构成的“社会”,从而实现相似于闵斯基在《心灵的社会》中提到的内在自举过程。在这一观点中,智能是由许多特别的计算结构所实现的,每个是由其受控于发展的成本函数所训练,而结构自己和成本函数都像超参数同样由进化所优化 。
上面是本篇嘴炮文章的惟一一副示意图。图 A 是传统机器学习的典型结构,红色虚线为成本函数(以偏差的形式输入网络)。图 B 则是假想的大脑神经网络,成本函数是根据外部输入在系统内部计算而得出的。图 C 中,多个不一样脑区分别根据不一样的成本函数训练,并彼此互相影响。
一个试图统一机器学习与神经系统的理论所遇到的第一个诘难必定是:神经系统怎么可能实现反向传播 (backpropagation)???
这是一个首要的问题,做者一口气写了八页纸。其核心思想为
(a) the brain has powerful mechanisms for credit assignment during learning that allow it to optimize global functions in multi-layer networks by adjusting the properties of each neuron to contribute to the global outcome, and that (b) the brain has mechanisms to specify exactly which cost functions it subjects its networks to, i.e., that the cost functions are highly tunable, shaped by evolution and matched to the animal's ethological needs. Thus, the brain uses cost functions as a key driving force of its development, much as modern machine learning systems do.
(a) 大脑有足够强力的机制来解决功劳分配问题。经过改变多层网络中每一个神经元的性质, 大脑能够优化总体的成本函数。
(b) 大脑有机制为其各网络精确分配不一样的成本函数,即, 成本函数很是可控,受到进化和动物自身生态需求的调控。
所以, 大脑将成本函数做为其发展的决定性驱动力,正如当今的机器学习系统同样。
全文太 luo 长 li 不 luo 翻 suo,在这里只提一些看起来有趣的模型。(过于技术化,暂时放到文章末尾)
之因此提出假说,固然是为了指导实践——是否有可能检验“大脑中有多种多样的成本函数来指导神经回路的学习”这一假设呢?
1. 经过猜想成本函数能够预测网络的状态:网络应当处于该成本函数所指定的优化状态。
2. 对成本函数的优化必然涉及到参数空间的梯度降低。或者说,在梯度降低方向的运动应当多于垂直方向的无心义旋转。若是能够观测神经网络中的权重的话(看到这里我真的笑出声哈哈哈哈哈哈),应该能够发现权重在进行梯度降低。
3. 根据1,外界干扰将使系统偏离优化状态。经过改变突触的权重,咱们能够产生一个小的干扰,并预测系统将回归到同一个优化状态。这在运动领域已经开始变得可能(经过脑机接口BMI)。
4. 若是咱们知道哪些细胞和链接负责传递偏差信号,那么能够经过刺激指定的链接来给系统强加一个用户定义的成本函数。这将等同于把相关脑回路当作一个可训练的深度网络,从而研究其学习。在另外一端,也能够经过脑机接口输入新的信息来研究其行为是否符合优化原则 (Dadarlat et al., 2015)。
5. 经过假想的候选成本函数来训练人工神经网络,能够和实际脑回路进行对比来测试假说(这一方法已经被多人应用)
做者相信大脑是进化所产生的隐态机器学习机制。那么大脑应该能够高效地优化多种数据下的多种成本函数。事实上,相比于现有的机器学习系统,大脑的硬件十分缓慢(受限于生化反应的速率);而对非线性,不可微分,时间上随机,基于脉冲的拥有大量反馈链接的系统如何进行优化,咱们所知甚少。在系统构架层面,大脑可用的刺激展现次数少,做用于多个不一样的时间框架,并采用主动学习。若是大脑果真是机器学习的范例(特别地,若是它的确解决了多层网络的功劳分配问题),那么咱们将学到不少有用的优化算法。
另外一方面,即便大脑并不使用反向传递,咱们也将学到一种全新的非反向传递的技巧。
机器学习领域中已经开始研究如何用网络产生成本函数 (Watter et al., 2015)。经过考察大脑如何在发展过程当中逐渐产生和适用不一样的成本函数将帮助咱们在机器学习中更好地设计成本函数以及层级行为。
机器学习正在发生的结构多元化亦能够从大脑结构的多元化中获益。
The brain combines a jumble of specialized structures in a way that works. Solving this problem de novo in machine learning promises to be very difficult, making it attractive to be inspired by observations about how the brain does it.
大脑将一堆特殊结构以一种有效的方式组合在一块儿。在机器学习中从新解决这一问题将会很是困难——这就是为何经过观察大脑如何作到这一点如此有吸引力。
深度学习之因此成功,是由于其将机器学习分红了两个部分:1 一个算法,反向传播,用于高效而分布式地进行优化; 2 将任何问题转换成合适的成本函数的技巧。今天的深度学习,大部分的工做都在寻找更合适的成本函数。
大脑在进化中是否也找到了这一方法呢?做者认为是的:不一样的皮层区域可能分享相同的优化算法(微结构),但接受不一样的数据和成本函数。事实上,针对制定皮层区域的成本函数多是做为输入与数据自己一同传递的。
另外一种可能则是,在皮层微结构(回路)中,一部分链接和学习规则决定了优化算法(固定);另外一些则决定成本方程(可变)。这一思路可类比于FPGA (这里不得不吐槽真是脑洞大开)。
文章的结论部分颇有共鸣,这里大体翻译以下。
因为大脑的复杂度和多变性,纯粹的自下而上的神经数据分析面临解释的困难。理论框架能够被用于约束假说空间,从而容许研究者先解决高层的原则和系统结构,再“放大”并解决细节。现有的自上而下的理论框架包括熵最大化,有效编码,贝叶斯推测的可靠近似,预测偏差的最小化*,吸引子动力学,模块化,符号运算能力,等等 (Pinker, 1999; Marcus, 2001; Bialek, 2002; Knill and Pouget, 2004; Bialek et al., 2006; Friston, 2010)。许多这类自上而下的理论本质上都是对单一计算结构的单一成本函数的优化。咱们将这些假说进行扩展,提出多元化和发展中的成本函数群体,以及多个专业化的子系统。
许多神经科学家专一于寻找“神经编码”,即哪些刺激易于产生指定神经元或脑区的活动。可是若是大脑的确对成本函数进行优化,那么咱们就要注意到简单的成本函数能够产生复杂的刺激回应。这可能使咱们转向另外一类问题。神经科学与机器学习间更加深刻的对话能够帮助澄清不少问题。机器学习大部分都专一于更快地进行神经网络中从头至尾的梯度降低。神经科学可能为机器学习带来许多层面的启示。大脑所采用的优化算法通过了数百万年的进化。大脑可能找到了使用异质化的在发展中彼此影响的成本函数群体经过引导无监督学习后果来简化学习的方法。大脑中进化出的各类专门化结构可能提示咱们如何提升面临多种计算问题和跨越多个时间框架时学习系统的效率。经过寻求神经科学提供的洞见,机器学习可能迈向在一个结构异质化,标记数据有限的世界中进行学习的强人工智能。
在某种意义上咱们的假说与流行理论相反。并无单一的优化机制,单一的成本函数,单一的表现形式,或者同质化的结构。全部这些异质化的元素由优化内部产生的成本函数这一原则统一在一块儿。许多早期人工智能途径都拒绝单一理论。例如,Minsky 和 Papert 在 《心灵的社会》中的工做,以及更普遍的,链接主义系统中由遗传预备和内部自引导的发展理论,强调智能须要一个由内部检测者和评判者组成的系统,特殊化的交流与存储机制,以及简单控制系统的层级化组织。
在这些早期工做进行时,人们还不知道基于梯度的优化能够带来强大的特征表明和行为政策。这里提出的理论能够被看做是针对流行的从头至尾的优化,从新提出异质化的方法。换句话说,这一框架能够被当作是一种由成本函数和可训练网络所构成的“社会”,从而实现相似于闵斯基在《心灵的社会》中提到的内在自举过程。在这一观点中,智能是由许多特别的计算结构所实现的,每个是由其受控于发展的成本函数所训练,而结构自己和成本函数都像超参数同样由进化所优化 。
---被放到末尾的一些技术细节---
2.1 局部自组织和优化不须要多层功劳分配 Local Self-organization and Optimization without Multi-layer Credit Assignment
Pehlevan and Chklovskii 2015 提出,一类Hebbian可塑性可被看作是提取输入主成分(PC)的过程,从而最小化重构偏差。
2.2. 优化的生物基础 Biological Implementation of Optimization
2.2.1. 多层网络须要高效的梯度降低 The Need for Efficient Gradient Descent in Multi-layer Networks
梯度降低的重要性众所周知,这里很少谈。知乎有一个话题就是专门讲梯度降低的。
2.2.2. 梯度降低的生物学近似 Biologically Plausible Approximations of Gradient Descent
大脑中可能用来实现对梯度降低算法近似的可能机制意外地多。其共同点为利用反馈链接传播偏差。一个例子是 O'Reilly 的 XCAL 算法 (O'Reilly et al., 2012),经过本地的 Hebbian 学习法则实现了偏差的反向传播。
实现反向传播的另外一个可能途径是基于脉冲时间的可塑性 (STDP)。Hinton 就将此阐释为神经元能够经过脉冲速率的时间导数来编码反向传播所需的偏差导数 (Hinton, 2007, 2016)。
还有一种可能的机制则涉及到独立于前馈链接强度的随机反馈链接。被称为“反馈对齐”的模型中,经过突触正规化和前馈与反馈链接的符号一致性,能够实现几乎和反向传播同样好的偏差计算 (Liao et al., 2015)。
2.2.2.1. 时间功劳分配 Temporal credit assignment:
以上讨论中一个重要的未解决问题是时间功劳分配:在反复网络 (recurrent nets) 中,为了实现“时域反向传播 (BPTT)”,机器学习使用的方法是把网络在时间中展开 (unroll)。神经系统彷佛显然没法将本身在时间中的活动展开来进行反向传播。
做者给出了几个解决思路。其一为经过记忆体来把时间上的功劳分配问题空间化 (例如 Weston et al., 2014)。
另外一种方案来自于对反复网络监督式学习的研究。在 Sussilo and Abbott, 2009 所提出的FORCE 模型中,网络的输出被钳在指定目标,同时由网络内部产生的随机涨落提供反馈信号来更新权重。
2.2.2.2. 脉冲网络 Spiking networks
2.3. 生物学习的其余原则 Other Principles for Biological Learning
很明显,即便大脑确实采用了近似于反向传播的优化算法,也不能排除其余彻底不一样的算法。
2.3.1. 利用生物神经基础 Exploiting Biological Neural Mechanisms
特别地,当咱们考察单个神经元的结构就会发现(这些都是老生常谈):神经元的树突能够进行局部运算;神经元包含多个部分 (compartments),每一个神经元能够视做一个局部网络;神经元产生动做电位时,反向(向树突)传播的电信号更增强烈地传向最近活动的分支,可能简化了功劳分配问题(Körding and König, 2000);等等。
生物神经网络一个重要的特征是神经调节剂:同一个神经网络根据神经调节状态的不一样,能够被看做是在多个重合的回路之间进行切换 (Bargmann, 2012; Bargmann and Marder, 2013)。这可能容许不一样回路之间分享习得的权重。
2.3.2. 皮层中的学习 Learning in the Cortical Sheet
皮层的6层结构很是引人注目,有多个学习理论试图解释这一不断重复的结构。一般都认为皮层经过预测进行无监督学习(O'Reilly et al., 2014b; Brea et al., 2016)。这其中包括了直接将皮层结构对应到贝叶斯推理中信息传递的努力(Lee and Mumford, 2003; Dean, 2005; George and Hawkins, 2009),而另外一些工做则试图用学习理论来解释观测到的皮层活动。
这些和其余一些关于皮层运做的初步理论都超越了反向传播。
---
Marblestone, A. H., Wayne, G. & Kording, K. P. Toward an Integration of Deep Learning and Neuroscience. Front. Comput. Neurosci.10, 1–61 (2016).
Frontiers | Toward an Integration of Deep Learning and Neuroscience
Bargmann, C. I. (2012). Beyond the connectome: how neuromodulators shape neural circuits. Bioessays 34, 458–465. doi: 10.1002/bies.201100185.
Bargmann, C. I., and Marder, E. (2013). From the connectome to brain function. Nat. Methods 10, 483–490. doi: 10.1038/nmeth.2451
Bialek, W. (2002). “Thinking about the brain,” in Physics of Bio-Molecules and Cells, Vol. 75, eds F. Flyvbjerg, F. Jülicher, P. Ormos, and F. David (Berlin; Heidelberg: Springer), 485–578.
Bialek, W., De Ruyter Van Steveninck, R., and Tishby, N. (2006). “Efficient representation as a design principle for neural coding and computation,” in 2006 IEEE International Symposium on Information Theory, (Los Alamitos: IEEE), 659–663.
Brea, J., Gaál, A. T., Urbanczik, R., and Senn, W. (2016). Prospective coding by spiking neurons. PLoS Comput. Biol. 12:e1005003. doi: 10.1371/journal.pcbi.1005003
Dadarlat, M. C., O'Doherty, J. E., and Sabes, P. N. (2015). A learning-based approach to artificial sensory feedback leads to optimal integration.Nat. Neurosci. 18, 138–144. doi: 10.1038/nn.3883
Dean, T. (2005). “A computational model of the cerebral cortex,” in Proceedings of the 20th National Conference on Artificial Intelligence(Pittsburg, PA).
Enel, P., Procyk, E., Quilodran, R., and Dominey, P. F. (2016). Reservoir computing properties of neural dynamics in prefrontal cortex. PLoS Comput. Biol. 12:e1004967. doi: 10.1371/journal.pcbi.1004967
Friston, K. (2010). The free-energy principle: a unified brain theory? Nat. Rev. Neurosci. 11, 127–138. doi: 10.1038/nrn2787
George, D., and Hawkins, J. (2009). Towards a mathematical theory of cortical micro-circuits. PLoS Comput. Biol. 5:e1000532. doi: 10.1371/journal.pcbi.1000532
Hinton, G. (2007). “How to do backpropagation in a brain,” in Invited Talk at the NIPS'2007 Deep Learning Workshop (Vancouver, BC).
Hinton, G. (2016). “Can the brain do back-propagation?,” in Invited talk at Stanford University Colloquium on Computer Systems (Stanford, CA).
Knill, D., and Pouget, A. (2004). The Bayesian brain: the role of uncertainty in neural coding and computation. Trends Neurosci. 27, 712–719. doi: 10.1016/j.tins.2004.10.007
Körding, K., and König, P. (2000). A learning rule for dynamic recruitment and decorrelation. Neural Netw. 13, 1–9. doi: 10.1016/S0893-6080(99)00088-X
Lee, T. S., and Mumford, D. (2003). Hierarchical Bayesian inference in the visual cortex. J. Opt. Soc. Am. A Opt. Image Sci. Vis. 20, 1434–1448. doi: 10.1364/JOSAA.20.001434
Liao, Q., Leibo, J. Z., and Poggio, T. (2015). How important is weight symmetry in backpropagation? arXiv:1510.05067.
Marcus, G. (2001). The Algebraic Mind: Integrating Connectionism and Cognitive Science. Cambridge, MA: MIT Press.
O'Reilly, R. C., Wyatte, D., and Rohrlich, J. (2014b). Learning through time in the thalamocortical loops. arXiv:1407.3432, 37.
Pehlevan, C., and Chklovskii, D. B. (2015). “Optimization theory of hebbian/anti-hebbian networks for pca and whitening,” in 53rd Annual Allerton Conference on Communication, Control, and Computing (Monticello, IL), 1458–1465.
Pinker, S. (1999). How the mind works. Ann. N.Y. Acad. Sci. 882, 119–127.
Sussillo, D., and Abbott, L. (2009). Generating coherent patterns of activity from chaotic neural networks. Neuron 63, 544–557. doi: 10.1016/j.neuron.2009.07.018.
Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. (2015). “Embed to control: a locally linear latent dynamics model for control from raw images,” in Advances in Neural Information Processing Systems (Montreal, QC), 2728–2736.
Weston, J., Chopra, S., and Bordes, A. (2014). Memory networks. arXiv:1410.3916