语言模型评价指标 bpc(bits-per-character)和困惑度ppl(perplexity)

时间 2021-01-21

原文原文链接

首先简单介绍下语言模型的标准评价指标： 1、混淆度 (Perplexity) 用来衡量一个语言模型在未见过的的字符串S上的表现。对于一个长度为N的字符串S，语言模型给出概率P(S)，对应的混淆度 (Perplexity)为 2^{-(1/N) log2 P(S)}。其中字符串长度单位可以是字符 (characters) 也可以是单词 (words). 2、 bits-per-character