对大量的观测数据进行处理,从而获得比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在,从而就能够模拟出结果,也就是对结果进行预测。解决的就是经过已知的数据获得未知的结果。例如:对房价的预测、判断信用评价、电影票房预估等。git
w叫作x的系数,b叫作偏置项。github
利用梯度降低法找到最小值点,也就是最小偏差,最后把 w 和 b 给求出来。函数
使用正则化项,也就是给loss function加上一个参数项,正则化项有L1正则化、L2正则化、ElasticNet。加入这个正则化项好处:blog
方程:get
J0表示上面的 loss function ,在loss function的基础上加入w参数的平方和乘以lambda,假设:数学
回忆之前学过的单位元的方程:it
正和L2正则化项同样,此时咱们的任务变成在L约束下求出J取最小值的解。求解J0的过程能够画出等值线。同时L2正则化的函数L也能够在w1w2的二维平面上画出来。以下图:io
L表示为图中的黑色圆形,随着梯度降低法的不断逼近,与圆第一次产生交点,而这个交点很难出如今坐标轴上。这就说明了L2正则化不容易获得稀疏矩阵,同时为了求出损失函数的最小值,使得w1和w2无限接近于0,达到防止过拟合的问题。ast
只要数据线性相关,用LinearRegression拟合的不是很好,须要正则化,能够考虑使用岭回归(L2), 如何输入特征的维度很高,并且是稀疏线性关系的话, 岭回归就不太合适,考虑使用Lasso回归。function
L1正则化与L2正则化的区别在于惩罚项的不一样:
求解J0的过程能够画出等值线。同时L1正则化的函数也能够在w1w2的二维平面上画出来。以下图:
惩罚项表示为图中的黑色棱形,随着梯度降低法的不断逼近,与棱形第一次产生交点,而这个交点很容易出如今坐标轴上。这就说明了L1正则化容易获得稀疏矩阵。
L1正则化(Lasso回归)可使得一些特征的系数变小,甚至还使一些绝对值较小的系数直接变为0,从而加强模型的泛化能力 。对于高的特征数据,尤为是线性关系是稀疏的,就采用L1正则化(Lasso回归),或者是要在一堆特征里面找出主要的特征,那么L1正则化(Lasso回归)更是首选了。
ElasticNet综合了L1正则化项和L2正则化项,如下是它的公式:
ElasticNet在咱们发现用Lasso回归太过(太多特征被稀疏为0),而岭回归也正则化的不够(回归系数衰减太慢)的时候,能够考虑使用ElasticNet回归来综合,获得比较好的结果。
咱们假设线性回归的噪声服从均值为0的正态分布。 当噪声符合正态分布N(0,delta^2)时,因变量则符合正态分布N(ax(i)+b,delta^2),其中预测函数y=ax(i)+b。这个结论能够由正态分布的几率密度函数获得。也就是说当噪声符合正态分布时,其因变量必然也符合正态分布。
在用线性回归模型拟合数据以前,首先要求数据应符合或近似符合正态分布,不然获得的拟合函数不正确。
做者:@mantchs
GitHub:https://github.com/NLP-LOVE/ML-NLP
欢迎你们加入讨论!共同完善此项目!群号:【541954936】