文本挖掘学习(五) 文档相似度、文档聚类

1.文档相似度 基于词袋模型的基本思路 如果两个文档/两句话的用词越相似,他们的内容就越相似。因此可以从词频入手,计算他们的相似度 文档向量化之后,相似度的考察就直接转化为计算空间中距离的问题 缺陷:不能考虑否定词的巨大作用,不能考虑词序的作用 余弦相似度 两个向量间的夹角能够很好地反映其相似程度 但夹角大小使用不便,因此用夹角的余弦值作为相似度衡量指标 # 文本相似度 # 基于词袋模型计算 #c
相关文章
相关标签/搜索