半监督学习

一)未标记样本算法

(二)生成式方法函数

(三)半监督SVM性能

(四)图半监督学习学习

(五)基于分歧的方法设计

(六)半监督聚类io

未标记样本基础

让学习器不依赖外界交互,自动地利用未标记样原本提高学习性能,就是半监督学习(semi-supervised learning)。学习方法

要利用未标记样本,必然要作一些未标记样本所揭示的数据分布信息与类别标记相联系的假设。最多见的是“聚类假设”(cluster assumption),即假设数据存在簇结构,同一个簇样本属于同一个类别。半监督学习中另外一个常见假设是“流形假设”(manifold assumption),即假设数据分布在一个流形结构上,邻近的样本拥有类似的输出值。“邻近”程度经常使用“类似”程度来刻画,所以,流行假设可看做聚类假设的推广,但流形假设对输出值没有限制,所以比聚类假设的适用范围更广,可用于更多类型的学习任务。事实上,不管聚类假设仍是流形假设,其本质都是“类似的样本拥有类似的输出”这个基本假设。重构

半监督学习可进一步划分为纯(pure)半监督学习和直推学习(transductive learning),前者假定训练数据中的未标记样本并不是待预测数据,然后者则假定学习过程当中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上得到最优泛化性能。换言之,纯半监督学习是基于“开放世界”假设,但愿学得模型能适用于训练过程当中未观察到的数据;而直推学习是基于“封闭世界”假设,仅试图对学习过程当中观察到的未标记数据进行预测。sed

 

图半监督学习

给定一个数据集,咱们可将其映射为一个图,数据集中每一个样本对应于图中一个结点,若两个样本之间的类似度很高(或相关性很强),则对应结点之间存在一条边,边的“强度”(strength)正比于样本之间的类似度(或相关性)。咱们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点还没有染色。因而,半监督学就对应于“颜色”在图上扩散或传播的过程。因为一个图对应了一个矩阵,这使得咱们能基于矩阵运算来进行半监督学习算法的推到和分析。

图半监督学习方法在概念上至关清晰,且易于经过对所涉矩阵运算的分析来探索算法性质。但此类算法的缺陷也至关明显。首先是在存储开销上,若样本数为O(m),则算法中所涉及的矩阵规模未O(m2),这使得此类算法很难直接处理大规模数据;另外一方面,因为构图过程仅能考虑训练样本集,难以判断新样本在图中的位置,所以,在接收到新样本时,或是将其加入原数据集对图进行重构并从新进行标记传播,或是需引入额外的预测机制。

基于分歧的方法

与生成式方法、半监督SVM、图半监督学习等基于单学习器利用未标记数据不一样,基于分歧的方法(disagreement-base methods)使用多学习器,而学习器之间的“分歧”(disagreement)对未标记数据的利用相当重要。

基于分歧的方法只需采用合适的基学习器,就能较少受到模型假设、损失函数非凸性和数据规模的影响,学习方法简单有效、理论基础相对坚实、适用范围较为普遍。为了使用此类方法,需能生成具备显著分歧、性能尚可的多个学习器,但当有标记样本不多,尤为是数据不具备多视图时,要作到这一点并不容易,需有技巧的设计。

 

半监督聚类

聚类是一种典型的无监督学习任务,然而在现实聚类任务中咱们每每能得到一些额外的监督信息,因而可经过半监督聚类(semi-supervised clustering)来利用监督信息以得到更好的聚类效果。

聚类任务中得到的监督信息大体有两种类型。第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束,前者是指样本必属于同一个簇,后者是指样本必不属于同一个簇;第二种类型的监督信息则是少许的有标记样本。

 

生成式方法

生成式方法(generative methods)是直接基于生成式模型的方法。此类方法假设全部数据(不管是否有标记)都是由同一个潜在的模型“生成”的。这个假设使得咱们能经过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看做模型的缺失参数,一般可基于EM算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设,不一样的模型假设将产生不一样的方法。

半监督SVM

半监督支持向量机(Semi-Supervised Support Vector Machine,简称 S3VM)是支持向量机在半监督学习上的推广。在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面

相关文章
相关标签/搜索