实例算法
首先举个例子,假设咱们有一个二手房交易记录的数据集,已知房屋面积、卧室数量和房屋的交易价格,以下表:函数
假若有一个房子要卖,咱们但愿经过上表中的数据估算这个房子的价格。这个问题就是典型的回归问题,这边文章主要讲回归中的线性回归问题。学习
线性回归(Linear Regression)优化
首先要明白什么是回归。回归的目的是经过几个已知数据来预测另外一个数值型数据的目标值。假设特征和结果知足线性关系,即知足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就是要预测的目标值。这一计算公式称为回归方程,获得这个方程的过程就称为回归。url
线性回归就是假设这个方式是一个线性方程,即假设这个方程是一个多元一次方程。以我们上面提到的例子为例:假设房子的房屋面积和卧室数量为自变量x,用x1表示房屋面积,x2表示卧室数量;房屋的交易价格为因变量y,咱们用h(x)来表示y。假设房屋面积、卧室数量与房屋的交易价格是线性关系。他们知足公式spa
上述公式中的θ为参数,也称为权重,能够理解为x1和x2对h(x)的影响度。对这个公式稍做变化就是orm
公式中θ和x是向量,n是样本数。blog
假如咱们依据这个公式来预测h(x),公式中的x是咱们已知的,然而θ的取值殊不知道,只要咱们把θ的取值求解出来,咱们就能够依据这个公式来作预测了。get
那么如何依据训练数据求解θ的最优取值呢?这就牵扯到另一个概念:损失函数(Loss Function)。数学
损失函数(Loss Function)
咱们要作的是依据咱们的训练集,选取最优的θ,在咱们的训练集中让h(x)尽量接近真实的值。h(x)和真实的值之间的差距,咱们定义了一个函数来描述这个差距,这个函数称为损失函数,表达式以下:
这里的这个损失函数就是著名的最小二乘损失函数,这里还涉及一个概念叫最小二乘法,这里再也不展开了。
咱们要选择最优的θ,使得h(x)最近进真实值。这个问题就转化为求解最优的θ,使损失函数J(θ)取最小值。那么如何解决这个转化后的问题呢?这又牵扯到一个概念:梯度降低(Radient Descent)
最小均方算法(Least mean square,LMS算法)
(对的朋友,你没有看错,不是梯度降低,是LMS算法。耐心点,梯度降低一下子就出来了)
咱们先来看当训练样本只有一个的时候的状况,而后再将训练样本扩大到多个的状况。训练样本只有一个的状况,咱们借鉴LMS算法的思想。扩大到多个咱们稍后说。
咱们要求解使得J(θ)最小的θ值,LMS算法大概的思路是:咱们首先随便给θ一个初始化的值,而后改变θ值让J(θ)的取值变小,不断重复改变θ使J(θ)变小的过程直至J(θ)约等于最小值。
首先咱们给θ一个初试值,而后向着让J(θ)变化最大的方向更新θ的取值,如此迭代。公式以下:
公式中α称为步长(learning rate),它控制θ每次向J(θ)变小的方向迭代时的变化幅度。J(θ)对θ的偏导表示J(θ)变化最大的方向。因为求的是极小值,所以梯度方向是偏导数的反方向。求解一下这个偏导,过程以下:
那么θ的迭代公式就变为:
这是当训练集只有一个样本时的数学表达。咱们又两种方式将只有一个样本的数学表达转化为样本为多个的状况:梯度降低(gradient descent)和正则方程(The normal equations)。这里咱们重点讲梯度降低。
梯度降低
以下公式是处理一个样本的表达式:
转化为处理多个样本就是以下表达:
这种新的表达式每一步都是计算的所有训练集的数据,因此称之为批梯度降低(batch gradient descent)。
注意,梯度降低可能获得局部最优,但在优化问题里咱们已经证实线性回归只有一个最优势,由于损失函数J(θ)是一个二次的凸函数,不会产生局部最优的状况。(假设学习步长α不是特别大)
批梯度降低的算法执行过程以下图:
你们仔细看批梯度降低的数学表达式,每次迭代的时候都要对全部数据集样本计算求和,计算量就会很大,尤为是训练数据集特别大的状况。那有没有计算量较小,并且效果也不错的方法呢?有!这就是:随机梯度降低(Stochastic Gradient Descent, SGD)
随机梯度降低在计算降低最快的方向时时随机选一个数据进行计算,而不是扫描所有训练数据集,这样就加快了迭代速度。随机梯度降低并非沿着J(θ)降低最快的方向收敛,而是震荡的方式趋向极小点。余凯教授在龙星计划课程中用“曲线救国”来比喻随机梯度降低。
随机梯度降低表达式以下:
执行过程以下图:
总结
线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即知足一个多元一次方程。使用最小二乘法构建损失函数,用梯度降低来求解损失函数最小时的θ值。