Dynamic Few-Shot Visual Learning without Forgetting

摘要:人类能从少许样本中学习新的概念且不会忘记之前的类别,为实现这一目标,做者提出:一、扩展一个具备注意力的目标识别系统,这种注意力来源于少样本分类权重生成器;二、从新设计卷积网络模型的分类器,做为特征表示和分类器权重向量之间的余弦类似函数。除了统一对新类和旧类的识别外,还能对新类进行更好归纳的特征表示。实验结果显示该方法不牺牲旧类的准确率。同时这里用到了最新few-shot样本集,Bharath and Girshick。算法

一、介绍网络

  卷积网络的三大问题:一、手动收集样本多;二、计算量大;三、类别固定。现有Few-shot算法问题:一、新类别的学习须要快速;二、不能牺牲初始类别的精度。框架

  基于注意力的少样本分类权重生成器。典型的卷积网络提取一个高水平特征表示,而后对特征应用一组类别权重向量(每类一个)。为了识别新类,必须构造新的分类权重向量,称为少样本分类权重生成器。它经过在基本类别的分类权重向量上引入注意力机制,利用已经得到的视觉知识,提升新类别的识别性能,即使只有一个训练样本可供学习。函数

  基于余弦类似度的卷积网络识别模型。基于点积的分类器没法灵活处理旧类和新类的分类权重向量。这里引入特征表示和分类权重向量之间的余弦类似度函数,在新类上有更好的泛化性能。性能

二、相关工做学习

  元学习,一些表明性工做,这里将少样本分类权重生成器做为元学习的一个组件。测试

  度量学习metric learning,度量学习方法学习保持类近邻的结构的特征表示,即同类目标的特征比异类特征更接近。Prototypical Networks经过计算新类特征向量的距离分类测试样本,提出学习一个新类的特征向量做为该类测试样本中提取的特征向量的平均值。本文的少样本分类权重生成器也包含了一个特征平均机制,并使用注意力机制利用过去视觉知识,且框架容许新类和旧类的统一识别。设计

  此外,Bharath和Girshick建议在训练L2正则化损失时使用特征表示,使他们更好的泛化不可见类别。在这里基于余弦类似度的分类器,除了统一新类和旧类外,还能产生更好的泛化不可见类的特征表示。另外,不少方法对分类器进行新样本和旧样本的再训练,这一般比较慢,且须要维护大量数据。blog

三、方法class

  

  主要改动为:一、基于卷积网络的识别模型;二、少样本类别权重生成器。

  在初始样本训练过程学到特征提取器F,能够获得特征表示,与每一个类的权重向量结合能够获得评分,最高分为分类结果。这里原始类的权重向量由大量样本训练获得,而新的样本由分类权重生成器G获得,二者产生的点积尺寸可能大为不一样。为避免这一问题,做者采用cosine类似度函数代替点积,先对w和z进行L2规范化,再计算cosine值,并取消了最后一层的ReLU操做。

  

 

  使用t-sne可视化后发现cos比点积有更好的聚拢可分辨效果。

   

 

   对于权重生成器G,其输入是新类的特征表示、旧类的权重向量,内部参数Φ在大量初始数据中训练获得,能够认为这里是一个元学习部件。G的具体形式构建,做者认为cosine类似促使特征生成器学习到紧凑的特征向量,且促使分类权重向量学到这些聚类中最优表明性的特征向量,因此一个最简单的方式是计算特征向量的平均值。但少许样本会形成极大偏差,且没有用到初始样本及类的知识。这里做者引入了注意力机制。

  

 

   做者认为类似的类应该有类似的权重向量,因此新类的权重向量能够表示为类似类权重向量的线性组合,将两部分合在一块儿:

  

  训练分为两部分:一、学习一个网络能获得好的特征抽取,并计算初始类权重;二、经过初始类权重和大量样本计算G中的参数Φ。

相关文章
相关标签/搜索