面向机器学习的特征工程 7、非线性特征提取和模型堆叠

7、非线性特征提取和模型堆叠

来源:ApacheCN《面向机器学习的特征工程》翻译项目git

译者:friedhelm739github

校对:(虚位以待)算法

当在数据一个线性子空间像扁平饼时 PCA 是很是有用的。可是若是数据造成更复杂的形状呢?一个平面(线性子空间)能够推广到一个 流形 (非线性子空间),它能够被认为是一个被各类拉伸和滚动的表面。apache

若是线性子空间是平的纸张,那么卷起的纸张就是非线性流形的例子。你也能够叫它瑞士卷。(见图 7-1),一旦滚动,二维平面就会变为三维的。然而,它本质上还是一个二维物体。换句话说,它具备低的内在维度,这是咱们在“直觉”中已经接触到的一个概念。若是咱们能以某种方式展开瑞士卷,咱们就能够恢复到二维平面。这是非线性降维的目标,它假定流形比它所占据的全维更简单,并试图展开它。机器学习

图7-1

关键是,即便当大流形看起来复杂,每一个点周围的局部邻域一般能够很好地近似于一片平坦的表面。换句话说,他们学习使用局部结构对全局结构进行编码。非线性降维也被称为非线性嵌入,或流形学习。非线性嵌入可有效地将高维数据压缩成低维数据。它们一般用于 2-D 或 3-D 的可视化。工具

然而,特征工程的目的并非要使特征维数尽量低,而是要达到任务的正确特征。在这一章中,正确的特征是表明数据空间特征的特征。学习

聚类算法一般不是局部结构化学习的技术。但事实上也能够用他们这么作。彼此接近的点(由数据科学家使用某些度量能够定义的“接近度”)属于同一个簇。给定聚类,数据点能够由其聚类成员向量来表示。若是簇的数量小于原始的特征数,则新的表示将比原始的具备更小的维度;原始数据被压缩成较低的维度。编码

与非线性嵌入技术相比,聚类能够产生更多的特征。可是若是最终目标是特征工程而不是可视化,那这不是问题。spa

咱们将提出一个使用 k 均值聚类算法来进行结构化学习的思想。它简单易懂,易于实践。与非线性流体降维相反,k 均值执行非线性流形特征提取更容易解释。若是正确使用它,它能够是特征工程的一个强大的工具。翻译

k 均值聚类

k 均值是一种聚类算法。聚类算法根据数据在空间中的排列方式来分组数据。它们是无监督的,由于它们不须要任何类型的标签,使用算法仅基于数据自己的几何形状来推断聚类标签。

聚类算法依赖于 度量 ,它是度量数据点之间的紧密度的测量。最流行的度量是欧几里德距离或欧几里得度量。它来自欧几里得几何学并测量两点之间的直线距离。咱们对它很熟悉,由于这是咱们在平常现实中看到的距离。

相关文章
相关标签/搜索