机器学习---核函数

前言:当我跟你提及核的时候,你的脑海里必定是这样的:html

想到的必定是BOOMBOOM。谈核色变,可是今天咱们说的核却温和可爱的多了。算法

我记得我前面说到了SVM的核武器是核函数,这篇文章能够做为http://www.cnblogs.com/xiaohuahua108/p/5934282.html这篇文章的下篇。可是我这里首先强调一下,核函数不是仅仅在SVM里使用,他只是一个工具,把低维数据映射到高维数据的工具。函数

形如这样:工具

原本是二维的数据,如今咱们把它映射的高维。这里也须要说明下,低维到高维,维数没有一个数量上的标准,可能就是无限维到无限维。性能

一 核

1.1 核的介绍


内核方法是一类用于模式分析或识别的算法,其最知名的使用是在支持向量机(SVM)。模式分析的通常任务是在通常类型的数据(例如序列,文本文档,点集,向量,图像等)中找到并研究通常类型的关系(例如聚类,排名,主成分,相关性,分类)图表等)。内核方法将数据映射到更高维的空间,但愿在这个更高维的空间中,数据能够变得更容易分离或更好的结构化。对这种映射的形式也没有约束,这甚至可能致使无限维空间。然而,这种映射函数几乎不须要计算的,因此能够说成是在低维空间计算高维空间内积的一个工具。 优化

1.2 核的诀窍

内核技巧是一个很是有趣和强大的工具。 它是强大的,由于它提供了一个从线性到非线性的链接以及任何能够只表示两个向量之间的点积的算法。 它来自以下事实:若是咱们首先将咱们的输入数据映射到更高维的空间,那么我在这个高维的空间进行操做出的效果,在原来那个空间就表现为非线性。 3d

如今,内核技巧很是有趣,由于不须要计算映射。 若是咱们的算法只能根据两个向量之间的内积表示,咱们所须要的就是用一些其余合适的空间替换这个内积。 这就是"技巧"的地方:不管使用怎样的点积,它都被内核函数替代。 核函数表示特征空间中的内积,一般表示为: htm

 

K(x,y)= <φ(x),φ(y)> blog

 

使用内核函数,该算法而后能够被携带到更高维空间中,而不将输入点显式映射到该空间中。 这是很是可取的,由于有时咱们的高维特征空间甚至能够是无限维,所以不可能计算。 文档

讲了这么大一段废话,仍是我上文的加黑部分,在低维中计算高维数据的点积。

1.3 核函数的性质

核函数必须是连续的,对称的,而且最优选地应该具备正(半)定Gram矩阵。听说知足Mercer定理的核是正半定数,意味着它们的核矩阵只有非负特征值。使用确定的内核确保优化问题将是凸的和解决方案将是惟一的。

然而,许多并不是严格定义的核函数在实践中表现得很好。一个例子是Sigmoid内核,尽管它普遍使用,但它对于其参数的某些值不是正半定的。 Boughorbel(2005)也实验证实,只有条件正定的内核在某些应用中可能赛过大多数经典内核。

内核还能够分为各向异性静止,各向同性静止,紧凑支撑,局部静止,非稳定或可分离非平稳。此外,内核也能够标记为scale-invariant(规模不变)或scale-dependent(规模依赖),这是一个有趣的属性,由于尺度不变内核驱动训练过程不变的数据的缩放。

 

补充:Mercer 定理:任何半正定的函数均可以做为核函数。所谓半正定的函数f(xi,xj),是指拥有训练数据集合(x1,x2,...xn),咱们定义一个矩阵的元素aij = f(xi,xj),这个矩阵式n*n的,若是这个矩阵是半正定的,那么f(xi,xj)就称为半正定的函数。这个mercer定理不是核函数必要条件,只是一个充分条件,即还有不知足mercer定理的函数也能够是核函数

1.4 如何选择核

我导师说是世界性难题,反正我不懂,若是有懂得,能够私聊我哦。

可是听说高斯核效果很好。

二 几种经常使用的核

2.1 线性核

线性内核是最简单的内核函数。 它由内积<x,y>加上可选的常数c给出。 使用线性内核的内核算法一般等于它们的非内核对应物,即具备线性内核的KPCA与标准PCA相同。

 

表达式 :

2.2 多项式核函数

多项式核是非固定内核。 多项式内核很是适合于全部训练数据都归一化的问题。我记得通常都会把问题归一化吧??

表达式:k(x,y)=(αx ^ T y + c)^ d

可调参数是斜率α,常数项c和多项式度d。

2.3 高斯核

高斯核是径向基函数核的一个例子。

或者,它也可使用来实现

可调参数sigma在内核的性能中起着主要做用,而且应该仔细地调整到手头的问题。 若是太高估计,指数将几乎呈线性,高维投影将开始失去其非线性功率。 另外一方面,若是低估,该函数将缺少正则化,而且决策边界将对训练数据中的噪声高度敏感。

 

2.4指数的内核

指数核与高斯核密切相关,只有正态的平方被忽略。 它也是一个径向基函数内核。

表达式:。和高斯核确实很像,哈哈。

2.5 拉普拉斯算子核

拉普拉斯核心彻底等同于指数内核,除了对sigma参数的变化不那么敏感。 做为等价的,它也是一个径向基函数内核。

 

表达式:

重要的是注意,关于高斯内核的σ参数的观察也适用于指数和拉普拉斯内核。

 

好了今天就讲到这里,下次有时间在来和你们分享其余的核函数吧。。。若是感受我写的还能够,麻烦点个粉,或者点一个推荐哦。

相关文章
相关标签/搜索