吴恩达机器学习笔记--正则化

机器学习:正则化

 

过拟合问题

拟合问题举例-线性回归之房价问题:

下图左中右分别是:欠拟合、合适的拟合、过拟合

 

什么是过拟合(Overfitting):

如果我们有非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好,但是对于新数据预测的很差。

过拟合导致它无法泛化(应用到新样本的能力)到新的样本中,无法预测新的样本

 

拟合问题举例-逻辑回归:

与上一个例子相似,依次是欠拟合,合适的拟合以及过拟合:

 

过拟合问题往往源自过多的特征,例如房价问题,如果我们定义了如下的特征:

 

对于训练集,拟合的会非常完美

 

所以针对过拟合问题,通常会考虑两种途径来解决:

   1.减少特征变量(删除部分特征变量)

            选择那些变量该留

            使用模型选择算法

   2.正则化(保留特征变量,但减少了量级)

 

成本函数

 

依然从房价预测问题开始,这次采用的是多项式回归:

我们可以从之前的事例中看出,正是那些高次项导致了过拟合的产生,所以如果我们能让这些高次项的系数接近0的话,我们就能很好的拟合了。

 

我们要做的就是在一定程度上减小θ3、θ4的值,这就是正则化的基本方法。我们要做的便是修改代价函数,在其中θ3和θ4 设置一点惩罚。这样做的话,我们在尝试最小化代价时也需要将这个惩罚纳入考虑中,并最终导致选择较小一些的θ3和θ4。

Cost function

 

这样在最小化Cost function的时候

 

正则化

参数θ1 θ2 θ3……θn取小一点的值,这样的优点:

-“简化”的hypothesis;

-不容易过拟合;

对于房价问题:

因为不知道哪些特征的相关性较小,即不知道对哪些参数进行惩罚(缩小),所以缩小所有参数

 

除 θ0以外的参数进行惩罚,也就是正则化

 

其中λ又称为正则化参数 λ(Regularization Parameter)。根据惯例,我们不对θ0 进行惩罚。经过正则化处理的模型与原模型的可能对比如下图所示:

 

对于正则化的线性回归模型来说,我们选择θ来最小化如下的正则化成本函数:

 

因为如果我们令λ的值很大的话,为了使 Cost Function  尽可能的小,所有的θ的值(不包括θ0)都会在一定程度上减小。 但若λ的值太大了,那么θ(不包括θ0)都会趋近于 0,这样我们所得到的只能是一条平行于 x轴的直线。 所以对于正则化,我们要取一个合理的λ的值,这样才能更好的应用正则化。

 若λ太大,就像左图,代价函数会基本等于h0项。

_______________________________________________________________________________________

正则化线性回归   (分为梯度下降正规方程

梯度下降:

正则化线性回归的代价函数为:

 

我们的目标依旧是最小化J(θ),由于正则化后的线性回归Cost function有了改变,因此梯度下降算法也需要相应的改变:

 

正规方程:

我们同样也可以利用正规方程来求解正则化线性回归模型,方法如下所示:


 

 

正则化逻辑回归模型

 

梯度下降算法:

同样对于逻辑回归,我们也给代价函数增加一个正则化的表达式

要最小化该代价函数,通过求导,得出梯度下降算法为:

高级算法的正则化: