过拟合:模型在测试集上的效果表现很好,在训练集上的效果与在训练集上的效果差别很大,这种状况就是发生了过拟合。函数
过拟合是过分拟合的训练集中的数据。性能
一、因为样本量不足,训练样本的分布于测试样本之间的分布存在差别。测试
二、在样本量不足的状况下,训练模型时,令代价函数等于零(极端),使得模型的泛化性能不好,致使了过拟合。.net
处理过拟合的方法视频
(1)正则化,就是在在模型中考虑模型复杂度,同时考虑经验风险和模型复杂度,预防过拟合。get
(2)交叉验证,就是将训练集和测试集来回使用,反复训练验证。通常分为简单交叉验证,S折交叉验证,留一交叉验证。方法
(3)增长样本的全面性和数量; 经验
(4)控制模型的复杂度; 数据
(5)不要过分训练 模型
(6)模型融合本质上也是一种提升泛化能力的方法
NG:
训练集偏差与交叉验证集偏差近似时:误差/欠拟合
交叉验证集偏差远大于训练集偏差时:方差/过拟合
参考:[1] http://lib.csdn.net/article/machinelearning/33798
[2] NG视频