4.机器学习——统计学习三要素与最大似然估计、最大后验几率估计及L一、L2正则化

时间 2019-11-10

原文原文链接

1.前言

以前我一直对于“最大似然估计”犯迷糊，今天在看了陶轻松、忆臻、nebulaf91等人的博客以及李航老师的《统计学习方法》后，豁然开朗，因而在此记下一些心得体会。算法

“最大似然估计”（Maximum Likelihood Estimation, MLE）与“最大后验几率估计”（Maximum A Posteriori Estimation,MAP）的历史可谓源远流长，这两种经典的方法也成为机器学习领域的基础被普遍应用。机器学习

有趣的是，这两种方法还牵扯到“频率学派”与“贝叶斯学派”的派别之争，前者认为一件事情发生几率的推断必须依靠数听说话，即认为世界是肯定的，咱们能够经过重复的大量的数据统计而使结果逼近真实的状况。后者认为世界是不肯定的，咱们须要对这个世界作出一个预判，而后经过数据的统计去不断地修正这个预判，最终使的几率分布可以最优化的解释这个世界。函数

2.统计学习三要素

前面讲到的MLE与MAP，实际上是统计模型优化求解中众多步骤中的一步。而统计模型是统计学习三要素之一。学习

统计学习（statistical learning）是利用计算机技术基于数据构建几率统计模型并对数据进行预测及分析的一门学科，即传统意义上的统计机器学习。测试

统计学习的三要素为：模型（model）、策略（strategy）、算法（algorithm）。优化

输入空间或者特征空间与输出空间之间全部可能的映射状况成为假设空间，而映射之因此存在是由于统计学习假设输入值与输出值是根据联合几率密度P(X,Y)独立同分布产生的。而模型就是假设空间中的一种特殊状况，固然假设空间中的模型有无数种。atom

策略就是一种在无限的模型当中找出一种符合当前数据分布的模型的方法，目标是从假设空间中寻找出最优模型。经过定义损失函数或者代价函数来达到这一目的。损失函数是模型预测值f(X)和真值Y的非负实值函数，L(f(X), Y)。spa

对于监督学习来讲，经常使用的损失函数有0 1损失函数、绝对值损失函数、对数损失函数、平方损失函数等。.net

算法既是根据已有的策略如何最优化咱们的模型，把统计学习问题总结为最优化问题。xml

3.最大似然估计与最大后验几率

在上面提到的统计学习三要素之一的策略当中，咱们已经找到了衡量模型预测结果的方式，即经过损失函数。经过统计损失函数的指望值并使其最小，能够达到最优化函数的左右。

损失函数的指望以下：

其中P（x,y）是输入值X和输出值Y的联合几率密度分布，咱们并不清楚，因此这是指望风险，即理论上真实的损失函数风险值。

指望风险咱们没法获知，可是咱们能够经过大量实验得到不少损失函数值，对于求平都可以获得经验风险。根据大数定理，当损失函数值趋近于无穷时，经验风险等价于指望风险。

当模型是条件几率分布，损失函数是对数损失函数时，此时的经验风险就是最大似然估计。

最大似然估计就是咱们根据已有数据的特征，来推断出现该特征的模型参数，目标是使参数的取值使得该数据的分布最符合这种特征。

形象点说，一罐子球，里面有黑白两色，咱们有放回的取出100个，其中70个是白球，那么咱们根据最大似然估计推断该罐子中70%是白球，由于这种分布状况下咱们最有可能取出70个白球（在100个球中）。

最大似然估计是求参数 $θ$

$θ$

这在模型防止过拟合中也起到了很关键的做用。

L一、L2正则化

模型在训练数据表现很好，在测试数据表示不好为过拟合（overfitting）。若是训练数据表现不好则为欠拟合。以下图所示：

欠拟合能够增长模型复杂度，增长模型训练次数等方法解决，这里主要讲过拟合。

过拟合就是为了是模型在训练数据上表示很好而强行增长了模型的复杂度，使得其普适能力差。

为了解决过拟合，能够经过添加惩罚项来解决。此时称为结构风险，而模型的最后变成使结构风险最小化问题。

其中J(f)为模型的复杂度。

而当模型的复杂度为模型的先验几率，损失函数是对数损失函数时，此时的结构风险最小化问题即变为最大后验几率估计问题。

而模型的复杂度用什么来衡量的，简单来讲既是模型参数的多少，参数越多，模型越复杂，反之越简单。而衡量模型参数多少能够经过0范数、1范数及2范数来解决。

0范数指非零向量个数。1范数指绝对值之和。2范数指一般意义上的模。

使0范数最小及实现模型参数最小。而人们发如今求解过程当中0范数求解难度较高，而1范数和0范数能够实现稀疏，1因具备比L0更好的优化求解特性而被普遍应用。L2范数是指向量各元素的平方和而后求平方根。咱们让L2范数的正则项||W||2最小，可使得W的每一个元素都很小，都接近于0，但与L1范数不一样，它不会让它等于0，而是接近于0，这里是有很大的区别的哦；因此你们比起1范数，更钟爱2范数。

正则化——即便模型结构风险最小的过程。

L1正则化即便L1范数的正则项最小。

L2正则化即便L2范数的正则项最小。