感知机perceptron是二类分类问题的线性分类模型,输入为实例的特征向量,输出为实例的类别(+1,-1)。感知机旨在求出训练数据进行线性划分的分离超平面(separating hyperplane),基于损失函数,利用梯度降低法对损失函数进行极小化,求得感知机模型,从而对新实例进行分类。它分为原始和对偶形式。1957年Rossenblatt提出。算法
从输入空间到输出空间的映射(函数):f(x)=sign(w·x+b)
其中,w是weight,x输入向量,b偏置bias,sign是符号函数,即
假设空间是定义在全部特征空间上的函数(线性分类模型)的集合{f|f(x)=w·x+b}
感知机解释:
线性方程w·x+b=0对应于特征空间Rn一个超平面,w是超平面的法向量,b是超平面的截距,超平面S将实例分为正负两类。函数
若是对于数据集T,存在一个超平面可以彻底正确的将其划分到超平面的两侧称为数据集线性可分linear separable
学习
假设数据线性可分,为了求出超平面,须要求出w和b,须要一个学习策略(如何找到超平面的计算方法),即定义损失函数,并将损失函数最小化。
定义损失函数:误分类点总数到超平面S的总距离。
输入空间Rn任一点到平面的距离是:点到平面的距离
误分类点知足:
所以误分类点到平面的距离是:
假设总共有M个误分类点,则总距离为:
不考虑常数项||w||,就是感知机的损失函数,即
在误分类时,L为w,b的连续可导函数。正确分类时L为0。spa
主要就是对上述损失函数进行求解全局最小(优)值(极小值)3d
具体采用随机梯度降低法(stochastic gradient descent SGD):首先任意选取一个超平面w0,b0,而后梯度降低法不断地极小化目标表函数,极小化过程不是一次使M中全部误分类点梯度降低,而是一次随机选取一个误分类点使其梯度降低。
梯度为:
具体算法过程:
code
首先将b并入w获得w hat,将x添加一维1,形式将被简化。因而获得:
迭代次数k有一个上限,说明原始算法是可收敛的,前提是数据线性可分。blog
说明一点,感知机的学习算法是支持向量机学习算法的基础,这里原始形式和对偶形式与之对应。
Gram 矩阵:
MATLAB示例:ast
1 x1=[3,3]', 2 x2=[4,3]', 3 x3=[1,1]', 4 G=[x1'*x1,x1'*x2,x1'*x3; 5 x2'*x1,x2'*x2,x2'*x3; 6 x3'*x1,x3'*x2,x3'*x3]