python比较文本类似度(not semantical)

statement:这里的文本类似度不是指语义类似度,仅仅指字符重叠度html

sudo apt-get install python-Levenshtein

import Levenshtein as lst
>>> lst.distance('as','asd')
1
>>> lst.ratio('as','asd')
0.8
>>> lst.ratio('ase','asd')
0.6666666666666666
>>> lst.distance('ase','asd')
1
>>> lst.distance('as','as')
0
>>> lst.distance('好的','好像')
3
>>> lst.ratio('好的','好像')
0.5
>>> lst.ratio('好的还能够','好像')
0.47619047619047616
>>> lst.ratio('好像是','好像')
0.8
>>> 

​

页能够根据余弦定理:python

TF-IDF与余弦类似性的应用(二):找出类似文章

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.htmlspa

相关文章
相关标签/搜索