Language Modeling with N-grams (Speech and Language Processing)

时间 2019-11-08

标签 language modeling grams speech processing 繁體版

原文原文链接

语言模型

计算词序列（words sequences)几率的模型称为语言模型（LMs）,词序列(w1,w2,...,wn)的几率为：
P(w₁ⁿ) = P(w₁)p(w₂|w₁)P(w₃|w₁w₂)...P(w_n|w₁^n-1)web

二元模型的前提是Markov假设（一个词的几率只依赖于其前面一个词），值为前一个词下的条件几率，再也不是前面词序列下的条件几率。
P(w_n|w₁^n-1) => P(w_n|w_n-1)blog

N元模型词几率设为前N-1个词下的条件几率
P(w_n|w₁^n-1) => P(w_n|w_n-(N-1)^n-1)get

计算下二元模型的词序列几率。
下图展现了一个语料库里各词出现次数

下图展现了二元词序列的出现次数及其各词几率

如(i want)词序列出现827次，i出现2533次，P(want|i) = 827/2533 = 0.33class

一般几率计算转换为log几率，避免几率相乘太小溢出。存储的时候只记录log和，须要原始几率时再进行转换。
P₁P₂P₃P₄=e^{(lnP₁ + lnP₂ + lnP₃ + lnP₄)}
几率大小就存储为lnP₁ + lnP₂ + lnP₃ + lnP₄model