Radial Basis Function Network

时间 2019-12-04

标签 radial basis function network 栏目系统网络繁體版

原文原文链接

#RBF Network 前面的一篇SVM中，最后的分割函数： git

使用高斯核函数方式把数据维度扩展到无限维度进而获得一条粗壮的分界线。 仔细看一下这个分割函数，其实就是一些Gaussian函数的线性组合，y就是增加的方向。 Gaussian函数还有另一个叫法——径向基函数，这是由于这个base function的结果只和计算这个x和中心点xn的距离有关，与其余的无关。 从其余方面来看SVM，先构造一个函数：

g(x) = y_nexp(-γ|x - x_n|^2)$$**指数求出来的其实就是x点和中心点的类似度，类似度越高，那么=晚y这个方向投票的票数就会越多。不一样的g(x)有不一样的权重，他们的线性组合就成了SVM，g(x)函数称为是radial function。因此Gaussian SVM就是把一些radial function联合起来作linear aggregation。**
![](https://upload-images.jianshu.io/upload_images/10624272-6588d51666aadb65.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
RBF Network就是SVM的延伸，目的就是找到全部radial hypotheses的linear aggregation，获得更好的网络模型。
![](https://upload-images.jianshu.io/upload_images/10624272-ccba9c461dd31303.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
能够看到这两种网络其实很相似，Neural Network的隐藏层是权值和数据作內积非线性转换再uniform的组合获得最后的输出，而对于RBF Network隐藏层是求高斯距离在作aggregation的方法。比较大的不一样点就在于hidden层的不一样了。![](https://upload-images.jianshu.io/upload_images/10624272-287a9913f1ff0e26.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![](https://upload-images.jianshu.io/upload_images/10624272-dc8b471b19c9f71b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
**β就是每个radial function的权值，μ就是中心点，m为中心点的个数，主要的，对比一下以前的SVM，β就是αy，μ就是支持向量。因为是一个分类问题，因此最后的output function就是sign函数了。**
![](https://upload-images.jianshu.io/upload_images/10624272-85380a75f0a2e592.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
以前讲过，一个核函数不是随便乱选的，要知足两个条件：对称，半正定。对于SVM里面的核函数，其实ius把当前的数据提高到某一个很高很高的维度，而后作切片把数据分出来，polynomial function也是同样的，只不过是有限维度的。**而RBF其实就是在当前的空间作类似度处理，而那些kernel其实就是转换到z空间来计算核函数以表征两个向量的类似度。因此RBF和kernel都是衡量类似度的方式。虽然SVM和RBF Network都很类似，甚至能够说最后的决策函数基本一致的，可是他们的学习过程是很不同的，一个是直接x空间，一个是转换到z空间。**
![](https://upload-images.jianshu.io/upload_images/10624272-b576a77a0f50e51f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
衡量类似性并不止一种RBF方法，余弦类似度这些也能够衡量向量之间的类似度。
>>**回过头来思考一下SVM，其实支持向量机就是先经过凸优化的一些方法找到有投票权利的点，以后给出相应的权值，最后决策就是这些有投票权利的点进行决策；对于其余线性模型，其实主要的不一样就是他们每个点都有投票的权利，这就致使很远的点都会干扰到边界。而RBF Network事实上作的事情和SVM有点像，由于RBF函数是指数增加，若是这个点很远的话会很是小，近乎就是0了，因此也起到了弱化远的点投票权，强化近的点投票权的能力。**
#RBF Network Learning
RBF Network的决策函数：
![](https://upload-images.jianshu.io/upload_images/10624272-8abbf9c46c2dcc7d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
μ就是中心点，中心点是本身选择的。有一种选择中心点的方法，就是全部的点都做为中心点，那么每个样本对于预测都会有影响，β就是影响的程度。若是影响的程度都是同样的，那么就是1了，β = 1*y，最后相乘作uniform aggregation以后sign获得结果。这种咱们称为full RBF Network。
![](https://upload-images.jianshu.io/upload_images/10624272-65af45410e3db116.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
这个时候，full RBF Network就能够表示为：
![](https://upload-images.jianshu.io/upload_images/10624272-3314b0cbfa87a3b6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
**这是一个指数函数，距离越远，那么衰减的就越快，x与中心点的距离越近那么就越大，距离越远就越小。也就是说，若是咱们的样本点是N个，那么起了关键做用的通常就是最近的那个点而已，固然，不必定是最近的一个点，能够是最近的K个点，用这k个点来代替N个点，当前的点周围最近的k个点哪一个类别最多，那么这个当前这个点就是属于哪一个类别的。这种算法就叫K近邻算法。**
![](https://upload-images.jianshu.io/upload_images/10624272-abdb46d10cc14581.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
k nearest neighbor一般比nearest neighbor model效果更好，计算量上也比full RBF Network要简单一些。值得一提的是，k nearest neighbor与full RBF Network都是比较“偷懒”的方法。由于它们在训练模型的时候比较简单，没有太多的运算，可是在测试的时候却要花费更多的力气，甚至能够说是几乎没有运算在里面，只须要作一些简单的数据处理便可，找出最相近的中心点，计算相对复杂一些。
若是是作回归问题，咱们就只须要去掉output：
![](https://upload-images.jianshu.io/upload_images/10624272-fe041c0e4a3a4b9e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
很明显，这样就是一个线性回归的问题了，每个RBF 其实能够看作就是一个矩阵好比第一个元素x1，那么通过RBF的转换以后：
$$z_1 = [RBF(x_1,x_1), RBF(x_1, x_2), RBF(x_1,x_3),RBF(x_1,x_3)...RBF(x_1,x_N)]

那么Z就是z的按列排序了，按照线性回归的解公式：github

上述矩阵Z是一个方阵，大小是N，有多少个中心点那么就有多少个N。若是每个x都是不同的，那么这个矩阵就是能够逆的矩阵了，毕竟x是训练数据，同样的就没有意义了。算法

化简一下：

咱们以x1为例子，那么解就是：数组

这个结果对于咱们来讲很是奇怪，若是这样的话那么对于全部的x都有：