机器学习的有监督算法分为分类和回归两种。算法
如今这里有一个例子
数据:工资和年龄(2个特征)
目标:预测银行会贷款给我多少钱(标签)
考虑:工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢?(参数)机器学习
工资 | 年龄 | 额度 |
4000 | 25 | 20000 |
8000 | 30 | 70000 |
5000 | 28 | 35000 |
7500 | 33 | 50000 |
12000 | 40 | 85000 |
输入为工资和年龄,输出为银行贷款的额度。那么输入和输出到底有什么关系呢?函数
假设X1,X2就是咱们的两个特征(年龄,工资),Y是银行最终会借给咱们多少钱学习
线性回归呢就是找到最合适的一条线(想象一个高维)来最好的拟合咱们的数据点,那么这个地方由于自变量涉及两个,因此最终目的就是找出一个拟合平面。优化
那么如今继续假设θ1是年龄的参数, θ2是工资的参数。那么拟合的平面表达式为(θ0为偏置项,θ1、θ2为权重参数):spa
这里的话总共有两个特征,那么当有n个特征的时候的表达式为(θ0对应的X0全为1):3d
真实值和预测值之间确定是要存在差别的(用 ε 来表示该偏差),而对于每一个样原本说,真实值等于预测值加上偏差值,公式表达为:blog
预测值与偏差:数学
因为偏差服从高斯分布:table
将两个式子整合获得:
似然函数(什么样的参数跟咱们的数据组合后(这个组合后的值就是预测值)刚好是真实值),最大似然估计(参数跟数据组合后刚好是真实值的几率是最大的),下面两个竖线数学符号的意思是进行累乘。
对数似然(乘法理解,加法就容易了,对数里面乘法能够转化成加法):
对上面的对数似然进行整合能够获得:
咱们的最终目标就是让似然函数(对数似然也是同样)越大越好,由于上面这个式子,前半部分是恒大于0的且是常数,后半部分也是恒大于0的,因此要保持整个式子最大,就只有让后半部分越小越好。因而能够获得:
那下面的过程就是怎么样才能求解使得上面这个式子的值越小越好呢?
这上面的推导过程表示并无看得太懂哈哈哈。可是结果表示当θ取这个值的时候,总体的偏导等于0,而偏导等于0是极小值点,至于为何是极小值点,涉及机器学习中的凸优化问题。