线性模型函数
线性模型试图学得一个经过属性的线性组合来进行预测的函数。形如:学习
一、线性回归spa
二、多分类学习3d
三、逻辑回归(LR)blog
四、类别不均衡问题变量
1、线性回归方法
讲解线性回归以前,先要了解回归和分类的区别,简单来讲,回归要作的就是一个连续的预测值,分类是一个离散的预测值。线性回归试图学的一个线性模型以尽量准确地预测。im
输入的属性值为只有一个,则函数为F(x)= w*x + b,其中f(x)约等于真实值y,为何是约等于?d3
看一个例子:数据
其中,蓝色星星为给定的数据,红色线为拟合后求出的线性方程,咱们能够发现,咱们要作的是使全部点到这条直线的距离和最短,以此来构造损失函数进行迭代求最优解。因此线性只是拟合了数据的分布趋势,并非真正预测出实际值。这就是为何是约等于。
那么如何来肯定方程中的W和b?咱们使用均方偏差来构造损失函数,,均方偏差的几何意义对应了经常使用的欧几里得距离。基于均方偏差最小化来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,使得全部样本到直线上的欧式距离之和最小。
求解W和b的过程称为线性回归模型的最小二乘法“参数估计”。咱们将损失函数分别对W和b求偏导,而后令偏导等于0,进行求解。
现实中常遇到多分类学习任务,咱们使用一些基本策略的,利用二分类学习器来解决多分类问题(OVO,OVR,MVM)。
一、OvO
二、OvR
一个例子:
三、MvM
为解决上述断定结果相同的问题,提出MVM拆分策略。
2、逻辑回归
上节介绍了使用线性模型进行回归学习,但若要作分类任务怎么办?咱们能够模拟预测值逼近y的衍生物,好比,假设咱们认为输出的y值是指在指数尺度上的变换,那么咱们的线性函数应为:ln(y) = wx+b,但实质上已经是在求取输入空间到输出空间的非线性函数映射。这样获得的模型:y = g(wx+b)称为广义线性模型。
同理,逻辑回归的实质为用线性回归模型的预测结果去逼近真实标记的对数概率。运用广义线性模型把函数值映射在0-1之间。
下面就是逻辑回归函数sigmod的推导过程。
3、类别不平衡问题
类别不平衡是指分类任务中不一样类别的训练样例数目差异很大的状况。解决类别不平衡问题的方法是“再缩放”。
一、下采样
直接对训练集里的负样例进行下采样,即取出一些负样例,是正负平衡。
二、上采样
经过训练集的正样例进行插值产生额外的正样例。若是简单地对初始正样例进行重复,会致使过拟合。