迁移学习( Transfer Learning )

     在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上来学习一个分类模型;而后利用这个学习到的模型来对测试文档进行分类与预测。然而,咱们看到机器学习算法在当前的Web挖掘研究中存在着一个关键的问题:一些新出现的领域中的大量训练数据很是可贵到。咱们看到Web应用领域的发展很是快速。大量新的领域不断涌现,从传统的新闻,到网页,到图片,再到博客、播客等等。传统的机器学习须要对每一个领域都标定大量训练数据,这将会耗费大量的人力与物力。而没有大量的标注数据,会使得不少与学习相关研究与应用没法开展。其次,传统的机器学习假设训练数据与测试数据服从相同的数据分布。然而,在许多状况下,这种同分布假设并不知足。一般可能发生的状况如训练数据过时。这每每须要咱们去从新标注大量的训练数据以知足咱们训练的须要,但标注新数据是很是昂贵的,须要大量的人力与物力。从另一个角度上看,若是咱们有了大量的、在不一样分布下的训练数据,彻底丢弃这些数据也是很是浪费的。如何合理的利用这些数据就是迁移学习主要解决的问题。迁移学习能够从现有的数据中迁移知识,用来帮助未来的学习。迁移学习(Transfer Learning)的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。所以,迁移学习不会像传统机器学习那样做同分布假设。算法

      咱们在迁移学习方面的工做目前能够分为如下三个部分:同构空间下基于实例的迁移学习,同构空间下基于特征的迁移学习与异构空间下的迁移学习。咱们的研究指出,基于实例的迁移学习有更强的知识迁移能力,基于特征的迁移学习具备更普遍的知识迁移能力,而异构空间的迁移具备普遍的学习与扩展能力。这几种方法各有千秋。框架

1.同构空间下基于实例的迁移学习机器学习

      基于实例的迁移学习的基本思想是,尽管辅助训练数据和源训练数据或多或少会有些不一样,可是辅助训练数据中应该仍是会存在一部分比较适合用来训练一个有效的分类模型,而且适应测试数据。因而,咱们的目标就是从辅助训练数据中找出那些适合测试数据的实例,并将这些实例迁移到源训练数据的学习中去。在基于实例的迁移学习方面,咱们推广了传统的AdaBoost算法,提出一种具备迁移能力的boosting算法:Tradaboosting [9],使之具备迁移学习的能力,从而可以最大限度的利用辅助训练数据来帮助目标的分类。咱们的关键想法是,利用boosting的技术来过滤掉辅助数据中那些与源训练数据最不像的数据。函数

  其中,boosting的做用是创建一种自动调整权重的机制,因而重要的辅助训练数据的权重将会增长,不重要的辅助训练数据的权重将会减少。调整权重以后,这些带权重的辅助训练数据将会做为额外的训练数据,与源训练数据一块儿历来提升分类模型的可靠度。学习

  基于实例的迁移学习只能发生在源数据与辅助数据很是相近的状况下。可是,当源数据和辅助数据差异比较大的时候,基于实例的迁移学习算法每每很难找到能够迁移的知识。可是咱们发现,即使有时源数据与目标数据在实例层面上并无共享一些公共的知识,它们可能会在特征层面上有一些交集。所以咱们研究了基于特征的迁移学习,它讨论的是如何利用特征层面上公共的知识进行学习的问题。测试

2.同构空间下基于特征的迁移学习优化

  在基于特征的迁移学习研究方面,咱们提出了多种学习的算法,如CoCC算法[7],TPLSA算法[4],谱分析算法[2]与自学习算法[3]等。其中利用互聚类算法产生一个公共的特征表示,从而帮助学习算法。咱们的基本思想是使用互聚类算法同时对源数据与辅助数据进行聚类,获得一个共同的特征表示,这个新的特征表示优于只基于源数据的特征表示。经过把源数据表示在这个新的空间里,以实现迁移学习。应用这个思想,咱们提出了基于特征的有监督迁移学习与基于特征的无监督迁移学习。翻译

2.1 基于特征的有监督迁移学习图片

  咱们在基于特征的有监督迁移学习方面的工做是基于互聚类的跨领域分类[7],这个工做考虑的问题是:当给定一个新的、不一样的领域,标注数据及其稀少时,如何利用原有领域中含有的大量标注数据进行迁移学习的问题。在基于互聚类的跨领域分类这个工做中,咱们为跨领域分类问题定义了一个统一的信息论形式化公式,其中基于互聚类的分类问题的转化成对目标函数的最优化问题。在咱们提出的模型中,目标函数被定义为源数据实例,公共特征空间与辅助数据实例间互信息的损失。文档

2.2 基于特征的无监督迁移学习:自学习聚类

  咱们提出的自学习聚类算法[3]属于基于特征的无监督迁移学习方面的工做。这里咱们考虑的问题是:现实中可能有标记的辅助数据都难以获得,在这种状况下如何利用大量无标记数据辅助数据进行迁移学习的问题。自学习聚类的基本思想是经过同时对源数据与辅助数据进行聚类获得一个共同的特征表示,而这个新的特征表示因为基于大量的辅助数据,因此会优于仅基于源数据而产生的特征表示,从而对聚类产生帮助。

  上面提出的两种学习策略(基于特征的有监督迁移学习与无监督迁移学习)解决的都是源数据与辅助数据在同一特征空间内的基于特征的迁移学习问题。当源数据与辅助数据所在的特征空间中不一样时,咱们还研究了跨特征空间的基于特征的迁移学习,它也属于基于特征的迁移学习的一种。

3.  异构空间下的迁移学习:翻译学习

  咱们提出的翻译学习[1][5]致力于解决源数据与测试数据分别属于两个不一样的特征空间下的状况。在[1]中,咱们使用大量容易获得的标注过文本数据去帮助仅有少许标注的图像分类的问题,如上图所示。咱们的方法基于使用那些用有两个视角的数据来构建沟通两个特征空间的桥梁。虽然这些多视角数据可能不必定可以用来作分类用的训练数据,可是,它们能够用来构建翻译器。经过这个翻译器,咱们把近邻算法和特征翻译结合在一块儿,将辅助数据翻译到源数据特征空间里去,用一个统一的语言模型进行学习与分类。

相关文章
相关标签/搜索