相关文章目录:python
咱们将用来描述回归问题的标记以下:算法
表明训练集中实例的数量数组
表明特征的数量机器学习
表示第
个训练实例,是特征矩阵的第i行,是一个向量函数
表示特征矩阵中第
行的第
个特征,也就是第
个训练实例的第
个特征post
表明目标变量,也就是输出变量学习
表明训练集中的一个实例优化
表明第
个观察实例cdn
表明学习算法的函数,或者加假设(hypothesis)blog
对于多变量线性回归,假设函数能够设为
为了使公式可以简化,引入 则假设函数变为
进行向量化后,最终结果为
咱们须要求出,使得对于每个样本,带入到假设函数中,能获得对应的一个预测值,而咱们的目标,是使求出的预测值尽量的接近真实值
因为咱们实际预测的值和真实值之间确定会有偏差,对于每一个样本:
其中,为当前样本实际真实值,
为预测结果,
即为预测偏差
对于整个数据集来讲,则:
偏差 是独立的而且具备相同的分布,而且服从均值为0,方差为
的正态分布
因为偏差服从正态分布,因此:
带入得:
咱们但愿偏差越接近0越好,因为偏差服从均值为0的正态分布,因此对应偏差越接近分布的中心处越好。咱们能够近似的用对应几率来表示当前正态分布的纵坐标值,则因为各个样本的偏差互相独立,因此,将每一个样本偏差几率相乘,得总似然函数为:
咱们的问题是但愿找到合适的,与咱们的数据组合后尽量的接近真实值 因此咱们须要求解上述似然函数的针对于
最大值,即求解最大似然函数
因为上述似然函数中的累乘运算过于复杂,咱们能够将其进行转换,变成对数似然,求加和,即:
上述公式中, 都是已知的,只有
是未知的。 因此咱们的目标是 找出一组
,使上述似然函数最大,即求最大似然函数。 因为只有
是未知的。上述问题能够转换为,求
的最小值
最终,得出咱们的目标函数(也称为代价函数)为:
进行向量化:
要求取得最小值时对应的
值,一个办法就是求偏导。因为
为凸函数,因此在偏导等于0处取得最小值,此时的
即为咱们所须要的,而且也是最优解 这种直接令偏导等于0,解方程得出
的方法称为正规方程
令,得:
虽然,经过正规方程,能够求得最优解,可是,在实际项目中,咱们的样本数量以及每一个样本的特征 数量很是大,这个时候,采用正规方程,算法的时间复杂度过高,耗时过高,甚至因为样本呢和特征过大,或者矩阵不可逆,致使没法计算。 尤为对于矩阵求逆来讲更是如此。因此,通常对于样本数量和特征数量较少时能够采用此种求解方式。
对于通常状况,咱们须要采用另一种很是经典的优化算法,即 梯度降低法
对于直接求解正规方程的方式,首先,并不必定可解,另外,时间复杂度太高。 而机器学习的常规套路,都是使用梯度降低法,去求解最小值问题。
梯度降低背后的思想是:
开始时咱们随机选择一组参数.计算对应代价函数,而后咱们须要寻找下一组能让代价函数值降低最多的参数组合,一直迭代这个过程,直到最后代价函数值收敛,即找到一个局部最小值. 此时对应的
即为咱们须要求的结果.
咱们并无尝试找出全部的参数组合,因此,不能肯定咱们获得的局部最小值是不是全局最小值。 可是,对于线性回归的代价函数来讲,其实自己是个凸优化问题,因此局部最小值即为全局最小值!
换个思路来理解,好比,你如今站在山上某一点,你须要下山,到达山底(即须要找到最小值点)<br> 在梯度降低算法中,你要作的就是,环顾四周,找到一个方向,往下走一步,而后再从新查找方向,往下走一步,以此循环,直到到达山底。<br> 上述场景中,影响到达山底的因素有两个,一个是方向,另一个是步长。<br> 要想能快速到底山底,咱们首先须要保证每步走的都是最陡的方向,而后步子迈大点。 而最陡的方向,即为梯度,又由于是找最小值,因此得沿着负梯度的方向,这就是梯度降低法
下面,咱们正式说下<br> 梯度降低法的基本结构(最小化) (下面表述中的
表示第几回迭代)<br>
下面说下,梯度降低中的三种方式,即:批量梯度降低,随机梯度降低和小批量梯度降低
批量梯度降低,其实就是在每次迭代中,在更新一组参数中的任意一个时,都须要对整个样本的代价函数
求对应梯度 <br> 他的优势是 容易获得最优解,可是因为每次都须要考虑全部样本,因此速度很慢
下面看下具体数学表示
对于某次迭代
其中,,即特征个数
进行向量化后,对于每次迭代
随机梯度降低,其实就是在每次迭代中,在更新一组参数中的任意一个时,只须要找一个样本求对应梯度,进行更新。 他的优势是 迭代速度快,可是不必定每次都朝着收敛的方向
具体数学表示为:
小批量梯度降低,其实就是在每次迭代中,在更新一组参数中的任意一个时,找一部分样本求对应梯度,进行更新。
小批量梯度降低 其实就是上述两种方法的权衡,实际应用中,大部分也都用此算法
梯度降低法中有两个因素,一个是方向,即梯度,另一个就是学习率,也就是步长。
若是学习率太小,则达到收敛(也就是近似接近于最小值)所须要的迭代次数会很是高。 学习率过大,则可能会越过局部最小值点,致使没法收敛
欢迎关注个人我的公众号 AI计算机视觉工坊,本公众号不按期推送机器学习,深度学习,计算机视觉等相关文章,欢迎你们和我一块儿学习,交流。