[Active Learning] 01 A Brief Introduction to Active Learning 主动学习简介

时间 2019-12-06

标签 active learning brief introduction 主动学习简介繁體版

原文原文链接

目录ios

本文将简单介绍什么是主动学习（Active Learning，AL），为何须要主动学习，主动学习和监督学习、弱监督学习、半监督学习、无监督学习之间是什么关系。最后再简单介绍主动学习的分类。（这里介绍的主动学习是机器学习的一个子领域。）算法

什么是主动学习？

主动学习（Active Learning），在统计学领域有时也叫“查询学习”（query learning）、“最优实验设计”（optimal experimental design），是机器学习的一个子领域。oracle

主动学习背后一个关键的假设：less

一个机器学习算法若是可以自行选择从哪些数据进行学习，经过较少的训练数据，它将表现得更好。

If the learning algorithm can choose the data from which it learns, it will perform better with less training.[1]dom

主动学习之因此叫主动学习，是由于算法从数据集中主动地选择一些不带标签的数据进行标注，而不是被动地选择。在每一次标注以后，模型从新或者增量地在带标签的数据上训练，而后再主动地选择不带标签数据进行标注，重复这个过程，这就是主动学习的流程。机器学习

主动学习 vs. 被动学习

被动学习（passive learning）被认为是从数据集中随机选择（randomly select）数据进行标注。工具

而主动学习选择要标注的样本时，有一些 criteria 进行指导，这就是主动学习和被动学习的区别。学习

不过被动学习彷佛叫的很少，通常用 random selection 与主动学习的 criteria 比较就好。设计

为何须要主动学习？

数据标注的成本高昂，迫使咱们想要用更少的标注数据来得到更有效的模型，这就是主动学习产生的缘由。3d

主动学习与监督学习、弱监督学习、半监督学习、无监督学习之间的关系

咱们根据训练数据集标签的状况来划分这几者：（欢迎大佬指正）

监督学习（Supervised learning）任务中，数据集的标签都是完整而精确的。
无监督学习（Unsupervised learning）任务中，数据集是不含标签的。
弱监督学习（Weakly-supervised learning）任务中，数据集的标签分为三种状况：（这三种状况可能同时出现）
- 部分数据有标签，部分数据没有标签。通常有标签的数据占少数，大部分数据没有标签。(Incompelet supervison）
- 数据都有标签，可是标签的粒度不够。例如，在图像语义分割中，细粒度的标签应该是 pixel-level 的，但给出的标签仅仅是 image-level 的，这就是标签的粒度不够。(Inexact supervison)
- 数据都有标签，可是标签有不少错误。(Inaccurate supervison)

Fig. 1 [2] Illustration of three typical types of weak supervision.

而主动学习对应弱监督学习的第一种状况，少部分数据含标签，可是大部分数据不含标签。

主动学习和半监督学习是什么关系？二者均可以认为是弱监督学习第一种状况的处理方式，但二者也有不同的地方，好比主动学习须要人工标注数据，而半监督学习不要。

主动学习的种类

Fig. 2 [1] Diagram illustrating the three main active learning scenarios.

根据应用场景，将主动学习划分为 3 类：

第一种是“Membership query synthesis”，字面意思上很难理解，不过这种方式的 instance 是算法从整个可能的样本空间中生成的，模型从头开始生成一个 instance 而后送去 oracle 打标签。
第二种是“steam-based selective sampling”，每一次咱们可以从数据流获得一个 instance，而后判断其是否要送去 oracle 打标签。
第三种是“pool-based sampling”，初始时，咱们就有不少 unlabeled data，只须要从这些 unlabeled data 中选择数据送到 oracle 打标签。（这种状况是最多见的。）

Fig. 3 [1] Pool-based active learning.

可能会有一个疑问，主动学习中的 oracle 是什么？oracle 能够是一个专家，打标签百分之百正确；也能够是不少拥有不一样专业知识的人，打标签不是百分百对，如众包。

主动学习的一个例子

Fig. 4 [1] An example of pool-based active learning.

Example from [1]：

(a) A toy data set of 400 instances, evenly sampled from two class Gaussians.
(b) A logistic regression model trained with 30 labeled instances randomly drawn from the problem domain.(accuracy:70%)
(c) A logistic regression model trained with 30 actively queried instances using uncertainty sampling.(accuracy:90%)

主动学习工具包 ALiPy

ALiPy (Active Learning in Python) [3] 是南京航空航天大学黄圣君老师作的一个开源的主动学习工具包，咱们能够很轻松地基于该工具包开发主动学习的程序，强烈推荐。

ALiPy 主页：http://parnec.nuaa.edu.cn/huangsj/alipy/。

References

[1] Burr Settles.(2009). Active Learning Literature Survey. Computer Sciences Technical Report 1648, University of Wisconsin-Madison.
[2] Zhou, Z.-H. (2018). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. https://doi.org/10.1093/nsr/nwx106
[3] Tang, Y.-P., Li, G.-X., & Huang, S.-J. (2019). ALiPy: Active Learning in Python, 1–5. Retrieved from http://arxiv.org/abs/1901.03802