（EM算法）The EM Algorithm（转）

时间 2019-11-30

标签算法 algorithm 栏目 CSS 繁體版

原文原文链接

EM是我一直想深刻学习的算法之一，第一次据说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在以后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM能够用于贝叶斯网络中。算法

下面主要介绍EM的整个推导过程。网络

1. Jensen不等式

回顾优化理论中的一些概念。设f是定义域为实数的函数，若是对于全部的实数x，，那么f是凸函数。当x是向量时，若是其hessian矩阵H是半正定的（），那么f是凸函数。若是或者，那么称f是严格凸函数。函数

Jensen不等式表述以下：学习

若是f是凸函数，X是随机变量，那么优化

特别地，若是f是严格凸函数，那么当且仅当，也就是说X是常量。spa

这里咱们将简写为。blog

若是用图表示会很清晰：ip

图中，实线f是凸函数，X是随机变量，有0.5的几率是a，有0.5的几率是b。（就像掷硬币同样）。X的指望值就是a和b的中值了，图中能够看到成立。ci

当f是（严格）凹函数当且仅当-f是（严格）凸函数。get

Jensen不等式应用于凹函数时，不等号方向反向，也就是。

2. EM算法

给定的训练样本是，样例间独立，咱们想找到每一个样例隐含的类别z，能使得p(x,z)最大。p(x,z)的最大似然估计以下：

第一步是对极大似然取对数，第二步是对每一个样例的每一个可能类别z求联合分布几率和。可是直接求通常比较困难，由于有隐藏变量z存在，可是通常肯定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。居然不能直接最大化，咱们能够不断地创建的下界（E步），而后优化下界（M步）。这句话比较抽象，看下面的。

对于每个样例i，让表示该样例隐含变量z的某种分布，知足的条件是。（若是z是连续性的，那么是几率密度函数，须要将求和符号换作积分符号）。好比要将班上学生聚类，假设隐藏变量z是身高，那么就是连续的高斯分布。若是按照隐藏变量是男女，那么就是伯努利分布了。

能够由前面阐述的内容获得下面的公式：

（1）到（2）比较直接，就是分子分母同乘以一个相等的函数。（2）到（3）利用了Jensen不等式，考虑到是凹函数（二阶导数小于0），并且

就是的指望（回想指望公式中的Lazy Statistician规则）

设Y是随机变量X的函数（g是连续函数），那么

（1） X是离散型随机变量，它的分布律为，k=1,2,…。若绝对收敛，则有

（2） X是连续型随机变量，它的几率密度为，若绝对收敛，则有

对应于上述问题，Y是，X是，是，g是到的映射。这样解释了式子（2）中的指望，再根据凹函数时的Jensen不等式：

能够获得（3）。

这个过程能够看做是对求了下界。对于的选择，有多种可能，那种更好的？假设已经给定，那么的值就决定于和了。咱们能够经过调整这两个几率使下界不断上升，以逼近的真实值，那么何时算是调整好了呢？当不等式变成等式时，说明咱们调整后的几率可以等价于了。按照这个思路，咱们要找到等式成立的条件。根据Jensen不等式，要想让等式成立，须要让随机变量变成常数值，这里获得：

c为常数，不依赖于。对此式子作进一步推导，咱们知道，那么也就有，（多个等式分子分母相加不变，这个认为每一个样例的两个几率比值都是c），那么有下式：

至此，咱们推出了在固定其余参数后，的计算公式就是后验几率，解决了如何选择的问题。这一步就是E步，创建的下界。接下来的M步，就是在给定后，调整，去极大化的下界（在固定后，下界还能够调整的更大）。那么通常的EM算法的步骤以下：

循环重复直到收敛 {

（E步）对于每个i，计算

（M步）计算

那么究竟怎么确保EM收敛？假定和是EM第t次和t+1次迭代后的结果。若是咱们证实了，也就是说极大似然估计单调增长，那么最终咱们会到达最大似然估计的最大值。下面来证实，选定后，咱们获得E步

这一步保证了在给定时，Jensen不等式中的等式成立，也就是

而后进行M步，固定，并将视做变量，对上面的求导后，获得，这样通过一些推导会有如下式子成立：

解释第（4）步，获得时，只是最大化，也就是的下界，而没有使等式成立，等式成立只有是在固定，并按E步获得时才能成立。

何况根据咱们前面获得的下式，对于全部的和都成立

第（5）步利用了M步的定义，M步就是将调整到，使得下界最大化。所以（5）成立，（6）是以前的等式结果。

这样就证实了会单调增长。一种收敛方法是再也不变化，还有一种就是变化幅度很小。

再次解释一下（4）、（5）、（6）。首先（4）对全部的参数都知足，而其等式成立条件只是在固定，并调整好Q时成立，而第（4）步只是固定Q，调整，不能保证等式必定成立。（4）到（5）就是M步的定义，（5）到（6）是前面E步所保证等式成立条件。也就是说E步会将下界拉到与一个特定值（这里）同样的高度，而此时发现下界仍然能够上升，所以通过M步后，下界又被拉升，但达不到与另一个特定值同样的高度，以后E步又将下界拉到与这个特定值同样的高度，重复下去，直到最大值。

若是咱们定义

从前面的推导中咱们知道，EM能够看做是J的坐标上升法，E步固定，优化，M步固定优化。

3. 从新审视混合高斯模型

咱们已经知道了EM的精髓和推导过程，再次审视一下混合高斯模型。以前提到的混合高斯模型的参数和计算公式都是根据不少假定得出的，有些没有说明来由。为了简单，这里在M步只给出和的推导方法。

E步很简单，按照通常EM公式获得：

简单解释就是每一个样例i的隐含类别为j的几率能够经过后验几率计算获得。

在M步中，咱们须要在固定后最大化最大似然估计，也就是

这是将的k种状况展开后的样子，未知参数和。

固定和，对求导得

等于0时，获得

这就是咱们以前模型中的的更新公式。

而后推导的更新公式。看以前获得的

在和肯定后，分子上面的一串都是常数了，实际上须要优化的公式是：

须要知道的是，还须要知足必定的约束条件就是。

这个优化问题咱们很熟悉了，直接构造拉格朗日乘子。

还有一点就是，但这一点会在获得的公式里自动知足。

求导得，

等于0，获得

也就是说再次使用，获得

这样就神奇地获得了。

那么就顺势获得M步中的更新公式：

的推导也相似，不过稍微复杂一些，毕竟是矩阵。结果在以前的混合高斯模型中已经给出。

4. 总结

若是将样本看做观察值，潜在类别看做是隐藏变量，那么聚类问题也就是参数估计问题，只不过聚类问题中参数分为隐含类别变量和其余参数，这犹如在x-y坐标系中找一个曲线的极值，然而曲线函数不能直接求导，所以什么梯度降低方法就不适用了。但固定一个变量后，另一个能够经过求导获得，所以可使用坐标上升法，一次固定一个变量，对另外的求极值，最后逐步逼近极值。对应到EM上，E步估计隐含变量，M步估计其余参数，交替将极值推向最大。EM中还有“硬”指定和“软”指定的概念，“软”指定看似更为合理，但计算量要大，“硬”指定在某些场合如K-means中更为实用（要是保持一个样本点到其余全部中心的几率，就会很麻烦）。

另外，EM的收敛性证实方法确实很牛，可以利用log的凹函数性质，还可以想到利用创造下界，拉平函数下界，优化下界的方法来逐步逼近极大值。并且每一步迭代都能保证是单调的。最重要的是证实的数学公式很是精妙，硬是分子分母都乘以z的几率变成指望来套上Jensen不等式，前人都是怎么想到的。

在Mitchell的Machine Learning书中也举了一个EM应用的例子，明白地说就是将班上学生的身高都放在一块儿，要求聚成两个类。这些身高能够看做是男生身高的高斯分布和女生身高的高斯分布组成。所以变成了如何估计每一个样例是男生仍是女生，而后在肯定男女生状况下，如何估计均值和方差，里面也给出了公式，有兴趣能够参考。