机器学习:模型泛化(L一、L2 和弹性网络)

1、岭回归和 LASSO 回归的推导过程

1)岭回归和LASSO回归都是解决模型训练过程当中的过拟合问题

  • 具体操做:在原始的损失函数后添加正则项,来尽可能的减少模型学习到的 θ 的大小,使得模型的泛化能力更强;

 

 2)比较 Ridge 和 LASSO

  • 名词
  1. Ridge、LASSO:衡量模型正则化;机器学习

  2. MSE、MAE:衡量回归结果的好坏;函数

  3. 欧拉距离、曼哈顿距离:衡量两点之间距离的大小;学习

 

  • 理解
  1. Ridge、LASSO:在损失函数后添加的正则项不一样;
  2. MSE、MAE:两种偏差的表现形式与对应的 Ridge 和 LASSO 的两种正则项的形式很像;
  3. 欧拉距离、曼哈顿距离:欧拉距离和曼哈顿距离的总体表现形式,与 Ridge、LASSO 两种正则项的形式也很像;

 

  • 其它测试

  1. 在机器学习领域,对于不一样的应用会有不一样的名词来表达不一样的衡量标准,但其背后本质的数学思想很是相近,表达出的数学的含义也近乎一致,只不过应用在了不一样的场景中而产生了不一样的效果,进而生成了不一样的名词;

 

 3)明科夫斯基距离

  • 明科夫斯基距离
  • 将明科夫斯基距离泛化:Lp 范数
  1. p = 1:称为 L1 范数,至关于从 (0, 0) 点到 X 向量的曼哈顿距离;
  2. p = 2:称为 L2 范数,至关于从 (0, 0) 点到 X 向量的欧拉距离;

 

 4)L1 正则、L2 正则

 

  • Ridge 回归中添加了 L2 正则项,LASSO 回归中添加了 L1 正则项;
  • L2 正则项和 L2 范数的区别在于,L2 正则项没有开平方,但有时候也直接称 L2 正则项为 L2 范数;(同理 L1 范数与 L1 正则项的关系)
  1. 缘由: L2 正则项是用于放在损失函数中进行最优化,若是将 L2 正则项加上开根号,不会影响损失函数优化的最终结果,可是不带根号会显得整个式子更加简单,因此对于 L2 正则项的式子中不带根号;
  • 同理在数学理论上也存在 Ln 正则项;

 

 5)L0 正则

  • 目的:使 θ 的个数尽可能少,进而限制 θ,使得拟合曲线上下抖动幅度不要太大,模型的泛化能力也会得以提升;
  • L0 的正则项:描述非 0 的 θ 参数的个数;

 

  • 实际中不多使用 L0 正则来进行模型正则化的过程,而是用 L1 正则代替;
  1. 缘由: L0 正则的优化是一个 NP 难的问题;它不能使用诸如梯度降低法,甚至是直接求出一个数学公式这样的方式来直接找到最优解; L0 正则项本质是一个离散最优化的问题,可能须要穷举全部的让各类 θ 的组合为 0 的可能状况,而后依次来计算 J(θ) ,进而来以为让哪些 θ 为 0 哪些 θ 不为 0,因此说 L0 正则的优化是一个 NP 难的问题;
  • 若是想限制 θ 的个数,一般使用 L1 正则

 

 

2、弹性网(Elastic Net)

 1)公式

  • 功能:也是解决模型训练过程当中的过拟合问题;
  • 操做:在损失函数后添加 L1 正则项和 L2 正则项;
  • 特色:同时结合了 岭回归和 LASSO 回归的优点;
  • r:新的超参数,表示添加的两个正则项的比例(分别为 r、1-r );

 

 2)现实中,在进行正则化的过程当中,一般要先使用 岭回归优化

  • 优势:岭回归计算更精准;
  • 缺点:不具备特征选择的功能; 
  1. 缘由:若是特征很是多的话,岭回归不能将某些 θ 设置为 0,若 θ 的量太大的话到致使总体计算量也很是的大;

 

 3)当特征很是多时,应先考虑使用 弹性网spa

  • 缘由:弹性网结合了岭回归的计算的优势,同时又结合了 LASSO 回归特征选择的优点;

 

 

3、总结与开拓

 1)总结

  • 训练的机器学习模型不是为了在训练数据集上有好的测试结果,而是但愿在将来面对未知的数据集上有很是好的结果;
  • 模型在面对未知数据集表现的能力,为该模型的泛化能力;(模型泛化是机器学习领域很是很是重要的话题

 

  • 分析和提高模型泛化能力的方法
  1. 看学习曲线;
  2. 对模型进行交叉验证;
  3. 对模型进行正则化;

 

 2)开拓

  • LASSO 回归的缺点:急于将某些 θ 化为 0,过程当中可能会产生一些错误,使得最终的模型的误差比较大;
  1. 问题:LASSO 回归在模型优化的过程当中是有选择的将某些 θ 化为 0 吗?或者说有没有什么条件使得尽可能避免让相关性比较强的特征的系数化为 0 ?仍是说这一行为只是单纯的数学运算,就为目标函数尽可能达到目标状态?
  2. “可能产生的错误”:将一些相关性比较强的特征的参数 θ 也化为 0,致使该特征丢失;

 

  • 开拓思路
  1. 弹性网结合了岭回归和 LASSO 回归两者的优点,小批量梯度降低法结合了批量梯度降低法和随机批量梯度降低法两者的优点,相似的方法在机器学习领域常常被运用,用来创造出新的方法。

 

  • 打个比方理解机器学习
  1. 参加考试前要作不少练习题,练习题就至关于训练数据,目的不是为了在作练习题的过程当中达到满分,而是经过作练习题让咱们在面对新的考试题时获得更高的分数,考试中面对的新的题目至关于模型在将来生成环境中见到的新的数据。
相关文章
相关标签/搜索