LSA和PLSA

 1.词袋模型    词袋模型(BOW, Bag-of-Words) 模型是NLP领域中的一个基本假设,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分,存在缺陷:   稀疏性: 对于大词典,尤其是包括了生僻字的词典,文档稀疏性不可避免;   多义词: BOW模型只统计单词出现的次数,而忽略了一个词可能存在多种含义,一词多义;   同义词(S
相关文章
相关标签/搜索