机器学习笔记(三)分类

机器学习笔记(三)分类

分类是一种典型的有监督学习问题,和回归相比,分类的标签(模型预测值)y为离散值。有监督学习的话,意味着我们的数据集要包含X和Y,然后定义一个优化目标函数,通过模型训练来优化函数,最后得到的模型就可以做预测了。

用回归的方法做分类,由于回归得到的是连续的值,所以我们要在回归结果上添加映射函数H(f),如f>0,H(f)=1;如果f<=0,H(f)=-1。

感知机、支持向量机和逻辑回归
线性可分训练集image.png
感知机:
是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别。找到一条直线,将两类数据分开即可。

支持向量机:
是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。找到一条直线,不仅将两类数据正确分类,还使得数据离直线尽量远。

逻辑回归:
找到一条直线使得观察到训练集的“可能性”最大,是互联网上最流行也是最有影响力的分类算法,也是深度学习(Deep Learning)的基本组成单元。

感知机的优化目标(误分类样本离超平面距离之和最小)
目标函数:
image.png
M为误分类样本
如果

image.png
就可以判断为是误分类样本

梯度:
image.png

梯度下降法(不断地通过下列迭代公式更新参数):
image.png

随机梯度下降法(每次随机抽取一组样本的梯度)
image.png
感知机算法:
image.png

**支持向量机:**间隔最大化(数据集离超平面越远越好)
距离:
image.png
间隔:训练集中离超平面最小的距离
image.png

间隔最大化:
image.png

image.png
则上式等价于

image.png

逻辑回归:赋予样本概率解释