最大熵马尔科夫模型（MEMM）及其标签偏置问题

时间 2020-03-22

标签最大熵模型 memm 及其标签偏置问题繁體版

原文原文链接

定义：spa

MEMM是这样的一个几率模型，即在给定的观察状态和前一状态的条件下，出现当前状态的几率。blog

Ø S表示状态的有限集合im

Ø O表示观察序列集合db

Ø Pr(s|s’,o):观察和状态转移几率矩阵img

Ø 初始状态分布：Pr0(s)

集合

注：O表示观察集合，S表示状态集合，M表示模型di

最大熵马尔科夫模型（MEMM）的缺点：co

看下图，由观察状态O和隐藏状态S找到最有可能的S序列：360

路径s1-s1-s1-s1的几率：0.4*0.45*0.5=0.09错误

路径s2-s2-s2-s2的几率: 0.2*0.3*0.3=0.018

路径s1-s2-s1-s2的几率: 0.6*0.2*0.5=0.06

路径s1-s1-s2-s2的几率: 0.4*0.55*0.3=0.066

由此可得最优路径为s1-s1-s1-s1

实际上，在上图中，状态1偏向于转移到状态2，而状态2总倾向于停留在状态2，这就是所谓的标注偏置问题，因为分支数不一样，几率的分布不均衡，致使状态的转移存在不公平的状况。

由上面的两幅图可知，最大熵隐马尔科夫模型（MEMM）只能达到局部最优解，而不能达到全局最优解，所以MEMM虽然解决了HMM输出独立性假设的问题，但却存在标注偏置问题。

如图所示，“由于”是介词词性p,而 MEMM却错误标注其词性为连词c。产生该状况的缘由正是一种偏置问题。

缘由：“是”存在两个词性，动词v和代词r，包含在状态集合S1中；“由于”包括两个词性，介词p与连词c，包含在状态集合S2中；“事”只有一个词性，名词n，包含在状态集合S3中。因为MEMM对每一个状态均定义一个指数模型，所以有：P(n|p)=1, P(n|c)=1, P(p|S1)+P(c|S1)=1; 基于马尔科夫假设，

P(S1, p, n)=P(p|S1)*P(n|p)=P(p|S1), 同理，P(S1, c, n)=P(c|S1)*P(n|c)=P(c|S1)。所以S2选择p节点仍是c节点只取决于P(p|S1)、P(c|S1)，即只与“是”的上下文有关，与“由于”的上下文无关，这即便MEMM产生偏置的一种状况。