哈尔滨工业大学计算机学院-天然语言处理-课程总结

时间 2019-12-08

标签哈尔滨工业大学计算机学院天然语言处理课程总结繁體版

原文原文链接

1. 前言

噪声信道模型的示意图以下所示：
该模型的目标是经过有噪声的输出信号试图恢复输入信号，依据贝叶斯公式，其计算公式以下所示：
\[I = \arg \max _ { I } P ( I | O ) = \arg \max _ { I } \frac { P ( O | I ) P ( I ) } { P ( O ) } = \arg \max _ { I } P ( O | I ) P ( I )\]
- \(I\)指输入信号，\(O\)指输出信号。
噪声模型的优势是具备普适性，经过修改噪声信道的定义，能够将不少常见的应用归入到这一模型的框架之中，相关介绍见2.1。

N-gram语言模型基于马尔可夫假设，即下一个词的出现仅仅依赖于他前面的N个词，公式以下：
\[P ( S ) = P \left( w _ { 1 } w _ { 2 } \dots w _ { n } \right) = p \left( w _ { 1 } \right) p \left( w _ { 2 } | w _ { 1 } \right) p \left( w _ { 3 } | w _ { 1 } w _ { 2 } \right) \ldots p \left( w _ { n } | w _ { 1 } w _ { 2 } \dots w _ { n - 1 } \right)\]
实践中，每每采用最大似然估计的方式进行计算：
\[P \left( w _ { n } | w _ { 1 } w _ { 2 } \dots w _ { n - 1 } \right) = \frac { C \left( w _ { 1 } w _ { 2 } \ldots w _ { n } \right) } { C \left( w _ { 1 } w _ { 2 } \dots w _ { n - 1 } \right) }\]
- 在训练语料库中统计得到字串的频度信息。
n越大: 对下一个词出现的约束性信息更多，更大的辨别力
n越小: 在训练语料库中出现的次数更多，更可靠的统计结果，更高的可靠性

若是不进行平滑处理，会面临数据稀疏的问题，这会使联合几率的其中一项值为0，从而致使句子的总体几率值为0。算法

3.2.1 加一平滑法（拉普拉斯定律）
公式以下：
\[P _ { L a p } \left( w _ { 1 } w _ { 2 } , \ldots w _ { n } \right) = \frac { C \left( w _ { 1 } w _ { 2 } \dots w _ { n } \right) + 1 } { N + B } , \left( B = | V | ^ { n } \right)\]
- 实际运算时，\(N\)为条件几率中先验字串的频度。

维特比算法用于解决HMM三大问题中的解码问题，即给定一个输出字符序列和HMM模型参数，如何肯定模型产生这一序列几率最大的状态序列。
\[\arg \max _ { X } P ( X | O ) = \arg \max _ { X } \frac { P ( X , O ) } { P ( O ) } = \arg \max _ { X } P ( X , O )\]
- \(O\)是输出字符序列，\(X\)是状态序列。
维特比算法迭代过程以下：
- 初始化
  \[\begin{array} { l } { \delta _ { 1 } ( i ) = \pi _ { i } b _ { i } \left( o _ { 1 } \right) } \\ { \psi _ { 1 } ( i ) = 0 } \end{array}\]
- 递归
  \[\begin{array} { c } { \delta _ { t + 1 } ( j ) = \underset { 1 \leq i \leq N } \max \delta _ { t } ( i ) a _ { i j } b _ { j } \left( o _ { t + 1 } \right) } \\ { \psi _ { t + 1 } ( j ) = \underset { 1 \leq i \leq N } { \arg \max } \delta _ { t } ( i ) a _ { i j } b _ { j } \left( o _ { t + 1 } \right) } \end{array}\]
- 结束
  \[\begin{array} { c } { P ^ { * } = \max _ { 1 \leq i \leq N } \delta _ { T } ( i ) } \\ { q _ { T } ^ { * } = \underset { 1 \leq i \leq N } { \arg \max } \delta _ { T } ( i ) } \end{array}\]
- 最优路径（状态序列）
  \[q _ { t } ^ { * } = \psi _ { t + 1 } \left( q _ { t + 1 } ^ { * } \right) , \quad t = T - 1 , \ldots , 1\]
上述迭代过程，\(a\)状态转移矩阵，\(b\)是状态-输出发射矩阵。