动手学(3)

循环神经网络 循环神经网络的构造 one-hot向量 裁剪梯度 困惑度 我们通常使用困惑度(perplexity)来评价语言模型的好坏。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地, 最佳情况下,模型总是把标签类别的概率预测为1,此时困惑度为1; 最坏情况下,模型总是把标签类别的概率预测为0,此时困惑度为正无穷; 基线情况下,模型总是预测所有类别的概率都相同,此时困惑度为类别个数。 显然,
相关文章
相关标签/搜索