摘要
从少数样本学习并泛化至大相径庭的状况是人类视觉智能所拥有的能力,这种能力还没有被先进的机器学习模型所学习到。经过系统神经科学的启示,咱们引入了视觉的几率生成模型,其中基于消息传送(message-passing)的推断以统一的方式处理识别、分割和推理(Reasoning)。该模型表现出优秀的泛化和遮挡推理(occlusion-reasoning)能力,并在困难的场景文字识别基准任务上优于深度神经网络,且更具备 300 倍的数据效率(data efficient)优点。此外,该模型基本上打破了现代基于文本的验证码生成方案,即在没有具体验证码的启发式方法下分割目标。咱们的模型在通向通用人工智能的路上多是很是重要的,由于它强调了数据效率和语意合成性等特性。算法
从几个例子中学习和归纳的能力是人类智力的标志(1)。
CAPTCHAs,网站使用的阻止自动交互的图像,
是人类易于使用的问题的例子,但对于计算机来讲却很困难.
CAPTCHAs对于算法来讲很难,由于它们将混乱和拥挤的字符加在一块儿,
字符分类器建立一个鸡和鸡蛋问题
分类器适用于已分段出来但分段的字符我的角色须要理解角色,
每一个角色能够以组合方式呈现(2-5)。
最近一种深度学习的方法来解析一种特定的人机识别模式,须要数百万个标注的例子(6),
早期的方法主要依靠手工制做的风格特定的启发式来分割字符(3,7);
而人类能够在没有明确训练的状况下解决新的风格(图1A)。
字母形式能够呈现并仍然被人们理解的各类各样的方式在图1中示出。网络
Douglas Hofstadter设想“程序处理具备人类灵活性,它必须拥有全面的人工智能“(8)。要构建这样的模型远远超出训练数据,
许多研究人员推测,这能够经过结合视觉皮层(9-12)的感应误差来实现,利用神经科学和认知科学研究产生的丰富数据。
在哺乳动物的大脑中,视觉皮层中的反馈链接起做用
即便部分透明的物体占据相同的空间位置(13-16),图像分割中的角色和基于对象的自顶向下的注意力即便隔离对象的轮廓。
视觉皮层的横向链接涉及强化轮廓连续性(17,18)。使用相互做用的独立机制(19-21)来表示轮廓和曲面,
使得可以识别和想象出异常外观的物体 - 例如由冰制成的椅子。皮质激活的时间和形态给出了关于轮廓表面表示和推理算法的线索(22,23)。
基于皮质功能的这些看法还没有归入领先的机器学习模型框架
咱们引入了一个称为递归皮质网络(RCN)的层次模型,将这些神经科学看法融入到一个结构化几率生成模型框架。机器学习
除了开发RCN及其学习和推理算法以外,咱们将该模型应用于须要从一个或几个训练示例中进行泛化的各类视觉认知任务:解析CAPTCHAs,一次和几回识别以及生成手写数字, 闭塞推理和场景文本识别。 而后,咱们将其性能与最早进的模型进行比较。性能
Recursive cortical network学习
RCN创建在现有的组合模型(24,28-32)上。
虽然基于语法的模型(24)具备基于来自语言学的众所周知的想法的优势,
可是它们将解释限制为单个树,或者在使用归因关系时计算不可行(32)。
关于AND-OR模板和树结构化组合模型(34)的开创性工做具备简化推理的优势,
但因为缺少横向约束,缺少选择性(35)。
来自另外一个重要类别(25,29)的模型使用横向约束,而不是经过池化结构逐渐构建不变性(36),
它们使用参数变换来完成每一个级别的完整的缩放,旋转和平移不变性。
须要自定义推理算法,但这些算法在传播局部相互做用以外的横向约束效应方面无效。
(37)中的轮廓和曲面的表示不会对它们的相互做用进行建模,而是选择将其模型化为独立的机制.
RCN和组合机器(CM)(32)共享将组合模型想法放置在图形模型公式中的动机。
然而,CM的“组合分布”的表明性选择 - 使用单层随机变量来折叠特征检测,聚集和横向协调 - 致使扩展的状态空间,从而将模型限制为贪心推理和解析过程。
通常来讲,因为各类各样的表现形式的选择,组合模型的推论依赖于不一样模型实例的定制方法,包括求解随机偏微分方程(30),基于抽样的算法(24)和修剪动态规划( 29)。网站
RCN整合并构建了组合模型的各类想法 - 层次结构,逐渐创建不变性,侧向链接的选择性,轮廓分解和基于解释的联合解释 - 在结构化几率图形模型中,
使信仰传播(38)能够用做 主要近似推理机[(33)第6节]。
实验性神经科学数据提供了表明性选择的重要指导[(33)]第7节,而后使用实验研究证明有益。 咱们如今讨论RCN及其推理和学习算法的表示。
数学细节在(33)的第2至5节中讨论。编码
Representation
在RCN中,对象被建模为轮廓和曲面的组合(图2A)。轮廓出如今表面的边界处,不管是在对象的轮廓和组成对象的曲面之间的边界。表面使用条件随机场(CRF)建模,其捕获表面性质变化的平滑度。轮廓使用特征的组成层次来建模(28,39)。轮廓(形状)和表面(外观)的因子表示使得模型可以以显着不一样的外观识别物体形状,而没必要对每种可能的形状和外观组合进行详尽的训练。咱们如今详细描述形状和外观表示。图2B显示了两个子网(黑色和蓝色)
一个级别的RCN轮廓层次结构。图中填充和空的圆形节点分别对应于特征和池的二进制随机变量。每一个特征节点编码其子池的AND关系,每一个池变量编码其子特征的OR,相似于AND-OR图(34)。表示为矩形“因子节点”的横向约束协调链接到的池之间的选择。能够对应于两个对象或对象部分的两个子网共享较低级别的特征。人工智能
图2C示出了表示平方的轮廓的三级网络。最低,中等和最高水平的特征分别表示线段,拐角和整个正方形。每一个池变量池不一样
“中心”特征的变形,小平移,缩放变化等,从而引入相应的不变性。没有池之间的横向链接(图2C中的灰色方块),从表示
如图3A所示,角部能够产生不对准的线段。池之间的横向链接经过确保在一个池中的特征的选择影响其链接的池中的特征的选择来提供选择性(35),建立轮廓变化更加平滑的样本。横向约束的灵活性是经过扰动因子来控制的,这是一个每级指定的超参数。经过多层特征集合,横向链接和组合,顶层的特征节点能够表示能够经过必定程度的平移,缩放和变形不变性来识别的对象。对象
生成模型先验知识
数据足够多,神经网络一样能达到效果。
神经网络
隐马尔科夫模型HMM
http://freemind.pluskid.org/machine-learning/hmm-definition/
如何轻松愉快地理解条件随机场http://www.jianshu.com/p/55755fc649b1