NLP系列 4. 文本表示

词袋模型——离散、高维、稀疏 基本介绍 词袋模型是一种很基础的文本表示模型。 通俗的理解就是把一段文本看做一个袋子,并且忽略词出现的顺序。具体而言,就是将文本以词为单位切分开,每篇文章可以表示为一个长向量,向量中的每一维代表一个单词,而其权重反映了这个词的重要程度,常用前面博客中所叙述的TF-IDF计算权重。 完全忽略词的出现顺序也不是很好,词与词之间的有机组合方才构成了一段文本的语义,这时候也常
相关文章
相关标签/搜索