词句相似度计算——余弦相似度

余弦相似度,是一种通过判断两个向量的夹角来判断其相似性的数学方法。 举个栗子: A:中国工商银行北京分部北京支行 B:中国招商银行广西分部桂林支行 我们用“余弦相似度”的办法来判断这两个句子的相似性 1、分词! 第一步要做的肯定是分词,把一个句子分成一组一组的散词,分词一般我们会用现成的语料库,比如结巴分词是吧,传说中的最好用的中文分词模块包。如果不是专业性特别强的方向,足矣,如果是专项的,比如医
相关文章
相关标签/搜索