西瓜书习题试答-第14章-几率图模型

试答系列:“西瓜书”-周志华《机器学习》习题试答
系列目录
[第01章:绪论]
[第02章:模型评估与选择]
[第03章:线性模型]
[第04章:决策树]
[第05章:神经网络]
[第06章:支持向量机]
第07章:贝叶斯分类器
第08章:集成学习
第09章:聚类
第10章:降维与度量学习
第11章:特征选择与稀疏学习
第12章:计算学习理论(暂缺)
第13章:半监督学习
第14章:几率图模型
(后续章节更新中...)html



14.1 试用盘式记法表示条件随机场和朴素贝叶斯分类器.

:见下图。其中,对于朴素贝叶斯分类器的盘式记法是毫无悬念的。而对于通常的条件随机场,状况较复杂,难以统一表示,下面仅对链式条件随机场进行盘式表示。然而,即使对于简单的链式条件随机场,也并不符合14.5.2节中所述:“...相互独立的、由相同机制生成的多个变量...”的条件。这里只是模仿其“对重复单元进行简化表示”的精神。

网络

14.2 试证实图模型中的局部马尔科夫性:给定某变量的邻接变量,则该变量条件独立于其余变量.

:参考教材正文14.2节,文中已经证实了“全局马尔科夫性”:给定两个变量子集的分离集,则这两个变量子集条件独立。由它能够获得两个推论,也就是这里习题14.2和14.3的结论。
对于14.2的局部马尔科夫性,邻接变量做为分离集,将给定变量与其余变量分离。
对于14.3的成对马尔科夫性,其余全部变量做为分离集,将两个非邻接变量分离。机器学习

14.3 试证实图模型中的成对马尔科夫性:给定其余全部变量,则两个非邻接变量条件独立.

:参见习题14.2。函数

14.4 试述马尔科夫随机场中为什么仅需对极大团定义势函数。

:这里试图从动机的角度来讲明表示为极大团势函数的形式有什么好处。
咱们已经有了关于“团”、“分离子集”、“马尔科夫性(条件独立)”的概念。如今,让咱们对于如下几点达成共识:学习

  1. 对于任意关于一组随机变量\(x_1,x_2,\cdots x_N\)的几率分布均可以表达为\(P(x_1,x_2,\cdots x_N)\),用几率图模型能够表示为一个“全链接”的“团”,亦即任意两个变量之间都有关联。
    可是,这样的话,对于几率图模型就毫无优点可言了。在一个具体的几率图模型中,并不是一个全链接,一个具体的图结构能够体现出一些条件独立性等信息,这样能够对几率分布的表达式进行简化。
  2. 若是一个图结构存在可分离子集,根据马尔科夫性,能够将几率表达式进行“降维”、“分离变量”。
    好比,对于下面的图结构中,变量子集\(C=\{C_1,C_2\}\)\(A=\{A_1,A_2,A_3,A_4\}\)\(B=\{B_1,B_2,B_3\}\)分离。

    因为马尔科夫性,联合几率能够表示为:

\[\begin{aligned} P(A,B,C)&=P(C)P(A|C)P(B|C)\\ &=P(A,C)P(B,C)/P(C)\\ \end{aligned}\]

这样,便将联合几率函数进行了“分解”、“降维”、“分离变量”,从原先的3维函数(将ABC视同单个变量)变为两个2维和一个1维函数的乘积形式(除法也可视为乘法)。
这个过程能够继续下去,好比,进一步对P(B,C)进行分解:
spa

\[\begin{aligned} P(C,B_1,B_2,B_3)&=P(B_1,B_3)P(C|B_1,B_3)P(B_2|B_1,B_3)\\ &=P(C,B_1,B_3)P(B_1,B_2,B_3)/P(B_1,B_3)\\ \end{aligned}\]

这样便将原先的4维函数(将C视为一个变量)分解为两个3维函数和一个2维函数的乘积形式。
这样的分解一直到何时呢?直到分解以后的各部分因子为团为止。
3. 一个“团”具备全链接结构,其中不存在可分离变量子集,对团进行分解表示时,并不会降维和分离变量。
好比,对于仅两个变量的团:
htm

\[\begin{aligned} P(A,B)&=P(A)P(B|A)\\ &=P(B)P(A|B) \end{aligned}\]

无论怎么分解,原先为2维函数,分解后的各部分中最高维数仍然是2维,没法达到降维和分离变量的目的。所以,第2部分所说的对联合几率的分解,一直分解到团为止,便再也不继续往下分解了。
举个具体实例,对于下图:
blog

\[\begin{aligned} P(ABCDE)&=\frac{P(ABCD)P(BCDE)}{P(BCD)}\\ &=\frac{P(ABC)P(BCD)}{P(BC)}\cdot\frac{P(BCD)P(BDE)}{P(BD)}\cdot \frac{1}{P(BCD)}\\ &=\frac{P(ABC)P(BCD)P(BDE)}{P(BC)P(BD)} \end{aligned}\]

其中第一行以{B,C,D}做为A和E分离子集,第二行以{BC}做为A和D的分离子集,以{B,D}做为C和E的分离子集。
能够发现一个规律:
将联合几率按可分离状况进行分解,一直到分解结果各项为团的联合几率为止,所得结果表达式为(各个极大团的联合几率之积)除以(极大团之间相交结点子集所构成的(非极大)团的联合几率之积)
好比,上面的,get

\[P(ABCDE)=\frac{P(ABC)P(BCD)P(BDE)}{P(BC)P(BD)} \]

  1. 关于全部变量的联合几率能够分解为关于各个极大团函数的乘积的形式。
    好比,对于上式,将分母上的子团与包含它的极大团的联合几率函数进行合并:

\[\begin{aligned} P(ABCDE)&=\frac{P(ABC)P(BCD)P(BDE)}{P(BC)P(BD)}\\ &=\frac{P(ABC)}{\sqrt{P(BC)}}\cdot\frac{P(BCD)}{\sqrt{P(BC)P(BD)}}\cdot\frac{P(BDE)}{\sqrt{P(BD)}}\\ &=f(ABC)h(BCD)g(BDE) \end{aligned}\]

不妨称这些关于极大团的函数为极大团的势函数。
这就是为何只需对极大团定义势函数的缘由,由于联合几率恰好能够分解为极大团势函数的形式。class

14.5 比较条件随机场和对率回归,试析其异同。

  1. 二者都是判别模型P(y|x),在对率回归中,y仅一个变量,取值为{1,0}或者{1,-1},其扩展形式softmax模型中一样只有一个y,可是取值能够为{1,2,...,N}。
  2. 从表达式形式上看,对率回归表达为:

\[p(y|x)=\frac{e^{y(w^Tx+b)}}{\sum_{y=1,0}e^{y(w^Tx+b)}} \]

而softmax可表达为:

\[p(y_i|x)=\frac{e^{(w_i^Tx+b_i)}}{\sum_{y_j}e^{y_j(w_j^Tx+b_j)}} \]

链式条件随机场则表达为:

\[P(y|x)=\frac{1}{Z}exp\left(\sum_j\sum_{i=1}^{n-1}\lambda_jt_j(y_{i+1},y_i,x,i)+\sum_k\sum_{i=1}^n\mu_ks_k(y_i,x,i)\right) \]

参考李航《统计学习方法》11.2.3节“条件随机场的简化形式”,将转移特征函数\(t_j\)\(s_k\)统一视表示为特征函数\(f_k(y_{i+1},y_i,x,i)\),而后对各个节点求和后记做\(f_k(y,x)\),将权重\(\lambda_j\)\(\mu_k\)统一表示为权重\(w_k\),则上式可转化为:

\[\begin{aligned} p(y|x)&=\frac{1}{Z}exp\sum_k w_k f_k(y,x)\\ &=\frac{e^{W^T F(y,x)} } {Z}\\ &=\frac{e^{W^T F(y,x)} } {\sum_y e^{W^T F(y,x)}}\\ \end{aligned}\]

它们的共同点在于,非归一化的几率(也就是分子部分)都表示为一个线性函数的指数函数形式,只不过在条件随机场中须要先用\(f_k(y,x)\)的特征函数将(y,x)转换为特征,而后再进行线性计算。

14.6 试证实变量消去法的计算复杂度随图模型中极大团规模的增加而呈指数增加,但随结点数的增加未必呈指数增加。