交叉熵基本概念

语言模型的性能一般用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每一个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每一个词的平均几率。平滑是指对没观察到的N元组合赋予一个几率值,以保证词序列总能经过语言模型获得一个几率值。一般使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-N
相关文章
相关标签/搜索