HMM MEMM & label bias

http://blog.csdn.net/xum2008/article/details/38147425算法

隐马尔科夫模型(HMM):函数

图1. 隐马尔科夫模型spa

隐马尔科夫模型的缺点:.net

        一、HMM只依赖于每个状态和它对应的观察对象:对象

              序列标注问题不只和单个词相关,并且和观察序列的长度,单词的上下文,等等相关。blog

        二、目标函数和预测目标函数不匹配:get

              HMM学到的是状态和观察序列的联合分布P(Y,X),而预测问题中,咱们须要的是条件几率P(Y|X)。it

 

最大熵隐马尔科夫模型(MEMM):io

 

 

图2. 最大熵马尔科夫模型im

        MEMM考虑到相邻状态之间依赖关系,且考虑整个观察序列,所以MEMM的表达能力更强;MEMM不考虑P(X)减轻了建模的负担,同时学到的是目标函数是和预测函数一致。

MEMM的标记偏置问题:

 

 

图3. Viterbi算法解码MEMM,状态1倾向于转换到状态2,同时状态2倾向于保留在状态2;

P(1-> 1-> 1-> 1)= 0.4 x 0.45 x 0.5 = 0.09 ,P(2->2->2->2)= 0.2 X 0.3 X 0.3 = 0.018,

P(1->2->1->2)= 0.6 X 0.2 X 0.5 = 0.06,P(1->1->2->2)= 0.4 X 0.55 X 0.3 = 0.066。

        图3中状态1倾向于转换到状态2,同时状态2倾向于保留在状态2;可是获得的最优的状态转换路径是1->1->1->1,为何呢?由于状态2能够转换的状态比状态1要多,从而使转移几率下降;即MEMM倾向于选择拥有更少转移的状态。这就是标记偏置问题。而CRF很好地解决了标记偏置问题。

        MEMM是局部归一化,CRF是全局归一化

        另外一方面,MEMMs不可能找到相应的参数知足如下这种分布:

         a b c --> a/A b/B c/C      p(A B C | a b c) = 1

         a b e --> a/A b/D e/E      p(A D E | a b e) = 1

         p(A|a)p(B|b,A)p(C|c,B) = 1

         p(A|a)p(D|b,A)p(E|e,D) = 1

       可是CRFs能够找到模型知足这种分布。

相关文章
相关标签/搜索