NLP理论基础和实践（进阶）-word2vec

时间 2020-12-23

原文原文链接

语言模型在统计自然语言处理中，语言模型指的是计算一个句子的概率模型。传统的语言模型中词的表示是原始的、面向字符串的。两个语义相似的词的字符串可能完全不同，比如“番茄”和“西红柿”。这给所有NLP任务都带来了挑战——字符串本身无法储存语义信息。该挑战突出表现在模型的平滑问题上：标注语料是有限的，而语言整体是无限的，传统模型无法借力未标注的海量语料，只能靠人工设计平滑算法，而这些算法往往效果甚微。

>>阅读原文<<