引言html
条件随机场(conditional random field,如下简称CRF) 是给定一组输入随机变量条件下另外一组输出随机变量的条件几率分布模型,其特色是假设输出随机变量构成马尔可夫随机场(HMM 是状态序列的 Markov Chain)。CRF 能够用于不一样的预测问题,在 Machine Learning 领域里 CRF 通常用做处理标注问题。经常使用的就是线性链(linear-chain) 条件随机场了,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法一般是极大似然估计或正则化的极大似然估计。线性链条件随机场应用于标注问题是由 Lafferty 等人于2001年提出的。dom
几率无向图模型函数
几率无向图模型又称为马尔可夫随机场(Markov random field),是一个能够由无向图表示的联合几率分布。本节首先叙述几率无向图模型的定义,而后介绍几率无向图模型的因子分解。学习
模型定义spa
图是由结点及链接结点的边组成的集合。结点和边分别记做 v 和 e ,结点和边的集合分别记做 V 和 E ,图记做 G=(V,E) ,无向图是指边没有方向的图。几率图模型(PGM) 是由图表示的几率分布。设有联合几率分布 $P(Y)$ ,$Y \in \mathcal{Y}$ 是一组随机变量。由无向图 G 表示几率分布,即在图 G 中,结点 $v \in V$ 表示一个随机变量 $Y_v$, $Y = Y_v|_{v \in V}$;边 $e \in E$ 表示随机变量之间的几率依赖关系。.net
给定一个联合几率分布 $P(Y)$ 和表示它的无向图 G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性局、部马尔可夫性和全局马尔可夫性。分别介绍一下三个概念:orm
成对马尔可夫性:设 u 和 v 是无向图G中任意两个没有边链接的结点,结点u和v分别对应随机变量 $Y_u$ 和 $Y_v$。其余全部结点为 O(集合),对应的随机变量组是 $Y_O$。成对马尔可夫性是指给定随机变量组 $Y_O$ 的条件下随机变量 $Y_u$ 和 $Y_v$ 是条件独立的,其实意思就是说没有直连边的任意两个节点是独立的,即htm
\[P(Y_u,Y_v |Y_O) = P(Y_u|Y_O)P(Y_v|Y_O)\]blog
局部马尔可夫性:设 v \in V 是无向图 G 中任意一个结点,W 是与 v 有边链接的全部结点,O 是 v,W 之外的其余全部结点。v 表示的随机变量是 $Y_v$ ,W 表示的随机变量组是 Y_w,O 表示的随机变量组是 Y_O。局部马尔可夫性是指在给定随机变量组 Y_W 的条件下随机变量 v 与随机变量组 Y_O 是独立的,即get
\[P(Y_v,Y_O |Y_W) = P(Y_v|Y_W)P(Y_O|Y_W)\]
在 $P(Y_O|Y_W) >0$ 时,等价地,
\[p(Y_v |Y_W) = P(Y_v|Y_W,Y_O)\]
下图表示了局部马尔可夫性。
全局马尔可夫性:设结点集合 A,B 是在无向图 G 中被结点集合 C 分开的任意结点集合,如图所示。结点集合 A,B 和 C 所对应的随机变量组分别是 $Y_A,Y_B$ 和 $Y_C$。全局马尔可夫性是指给定随机变量组条件下随机变量组 $Y_A$ 和 $Y_B$ 是条件独立的,即
\[P(Y_A,Y_B|Y_C) = P(Y_A|Y_C)P(Y_B|Y_C)\]
几率无向图模型: 设有联合几率分布 P(Y) ,由无向图 G=(V,E) 表示,在图 G 中,结点表示随机变量,边表示随机变量之间的依赖关系。若是联合几率分布 P(Y) 知足成对、局部或全局马尔可夫性,就称此联合几率分布为几率无向图模型或马尔可夫随机场。
以上是几率无向图模型的定义,实际上,咱们更关心的是如何求其联合几率分布。对给定的几率无向图模型,咱们但愿将总体的联合几率写成若干子联合几率的乘积的形式,也就是将联合几率进行因子分解,这样便于模型的学习与计算。事实上,几率无向图模型的最大特色就是易于因子分解。下面介绍这一结果。
首先给出无向图中的团与最大团的定义,无向图 G 中任何两个结点均有边链接的结点子集称为团(clique)。若 C 是无向图 G 的一个团,而且不能再加进任何一个 G 的结点使其成为一个更大的团,则称此 C 为最大团(maximal clique)。
下图 (a) 表示由4个结点组成的无向图。图中由2个结点组成的团有5个: {$Y_1,Y_2$},{$Y_2,Y_3$},{$Y_3,Y_4$} 和 {$Y_4,Y_2$},{$Y_1,Y_3$} 。有2个最大团:{$Y_1,Y_2,Y_3$} 和 {$Y_2,Y_3,Y_4$}。而 {$Y_1,Y_2,Y_3,Y_4$} 不是一个团,由于 $Y_1$ 和 $Y_4$ 没有边链接。
将几率无向图模型的联合几率分布表示为其最大团上的随机变量的函数的乘积形式的操做,称为几率无向图模型的因子分解,譬如在解高次方程的时候,咱们很是但愿方程可以分解为多个低次方程的乘积。那么,对于几率分布函数而言,咱们也但愿可以这样作,即给定几率无向图模型,设无向图为 G , C 为 G 上的最大团, $Y_C$ 表示 C 对应的随机变量。那么几率无向图模型的联合几率分布 $P(Y)$ 可分解为图中全部最大团 C 上的函数 $\Psi_C(Y_C)$ 的乘积形式,分解后的因子图如 (b) 所示,每一个黑色的正方形便表明一个函数,图中将无向图拆分为两个最大团上势函数的乘积,具体的拆分公式为:
\[P(Y) = \frac{1}{Z} \prod_C \Psi_C(Y_C)\]
其中,Z 是规范化因子(normalization factor),形式以下:
\[Z = \sum_Y\prod_C \Psi_C(Y_C)\]
规范化因子保证 $P(Y)$ 构成一个几率分布。$\Psi_C(Y_C) \rightarrow \mathbb{R}$ 称为势函数 (potential function)。这里要求势函数 $\Psi_C(Y_C)$ 是严格正的,一般定义为指数函数:
\[\Psi_C(Y_C) = \exp \left \{-E(Y_C) \right \}\]
总结一下,便获得 Hammersley-Clifford定理 ,几率无向图模型的联合几率分布能够表示为以下形式:
\begin{aligned}
P(Y) &= \frac{1}{Z} \prod_C \Psi_C(Y_C) \\
Z &= \sum_Y\prod_C \Psi_C(Y_C)
\end{aligned}
其中,C 是无向图的最大团, $Y_C$ 是 C 的结点对应的随机变量, $\Psi_C(Y_C)$ 是 C 上定义的严格正函数,乘积是在无向图全部的最大团上进行的。