利用word分词来计算文本类似度

时间 2019-11-12

标签利用 word 分词计算文本类似栏目 Microsoft Office 繁體版

原文原文链接

word分词提供了多种文本类似度计算方式：java

方式一：余弦类似度，经过计算两个向量的夹角余弦值来评估他们的类似度git

实现类：org.apdplat.word.analysis.CosineTextSimilaritygithub

用法以下：ide

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new CosineTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的类似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的类似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的类似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的类似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的类似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的类似度分值："+score3pk3);

运行结果以下：idea

我爱购物 和 我爱购物 的类似度分值：1.0
我爱购物 和 我爱读书 的类似度分值：0.67
我爱购物 和 他是黑客 的类似度分值：0.0
我爱读书 和 我爱读书 的类似度分值：1.0
我爱读书 和 他是黑客 的类似度分值：0.0
他是黑客 和 他是黑客 的类似度分值：1.0

方式二：简单共有词，经过计算两篇文档共有的词的总字符数除以最长文档字符数来评估他们的类似度spa

实现类：org.apdplat.word.analysis.SimpleTextSimilaritycode

用法以下：orm

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new SimpleTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的类似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的类似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的类似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的类似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的类似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的类似度分值："+score3pk3);

运行结果以下：文档

我爱购物 和 我爱购物 的类似度分值：1.0
我爱购物 和 我爱读书 的类似度分值：0.5
我爱购物 和 他是黑客 的类似度分值：0.0
我爱读书 和 我爱读书 的类似度分值：1.0
我爱读书 和 他是黑客 的类似度分值：0.0
他是黑客 和 他是黑客 的类似度分值：1.0

方式三：编辑距离，经过计算两个字串之间由一个转成另外一个所需的最少编辑操做次数来评估他们的类似度get

实现类：org.apdplat.word.analysis.EditDistanceTextSimilarity

用法以下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
Similarity textSimilarity = new EditDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的类似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的类似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的类似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的类似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的类似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的类似度分值："+score3pk3);

运行结果以下：

我爱购物 和 我爱购物 的类似度分值：1.0
我爱购物 和 我爱读书 的类似度分值：0.5
我爱购物 和 他是黑客 的类似度分值：0.0
我爱读书 和 我爱读书 的类似度分值：1.0
我爱读书 和 他是黑客 的类似度分值：0.0
他是黑客 和 他是黑客 的类似度分值：1.0

方式四：SimHash + 汉明距离，先使用SimHash把不一样长度的文本映射为等长文本，而后再计算等长文本的汉明距离

实现类：org.apdplat.word.analysis.SimHashPlusHammingDistanceTextSimilarity

用法以下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new SimHashPlusHammingDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的类似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的类似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的类似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的类似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的类似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的类似度分值："+score3pk3);

运行结果以下：

我爱购物 和 我爱购物 的类似度分值：1.0
我爱购物 和 我爱读书 的类似度分值：0.95
我爱购物 和 他是黑客 的类似度分值：0.83
我爱读书 和 我爱读书 的类似度分值：1.0
我爱读书 和 他是黑客 的类似度分值：0.86
他是黑客 和 他是黑客 的类似度分值：1.0

方式五：Jaccard类似性系数，经过计算两个集合交集的大小除以并集的大小来评估他们的类似度

实现类：org.apdplat.word.analysis.JaccardTextSimilarity

用法以下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new JaccardTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的类似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的类似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的类似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的类似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的类似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的类似度分值："+score3pk3);

运行结果以下：

我爱购物 和 我爱购物 的类似度分值：1.0
我爱购物 和 我爱读书 的类似度分值：0.5
我爱购物 和 他是黑客 的类似度分值：0.0
我爱读书 和 我爱读书 的类似度分值：1.0
我爱读书 和 他是黑客 的类似度分值：0.0
他是黑客 和 他是黑客 的类似度分值：1.0

方式六：欧几里得距离（Euclidean Distance），经过计算两点间的距离来评估他们的类似度

实现类：org.apdplat.word.analysis.EuclideanDistanceTextSimilarity

用法以下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new EuclideanDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的类似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的类似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的类似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的类似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的类似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的类似度分值："+score3pk3);

运行结果以下：

我爱购物 和 我爱购物 的类似度分值：1.0
我爱购物 和 我爱读书 的类似度分值：0.41
我爱购物 和 他是黑客 的类似度分值：0.29
我爱读书 和 我爱读书 的类似度分值：1.0
我爱读书 和 他是黑客 的类似度分值：0.29
他是黑客 和 他是黑客 的类似度分值：1.0

方式七：曼哈顿距离（Manhattan Distance），经过计算两个点在标准坐标系上的绝对轴距总和来评估他们的类似度

实现类：org.apdplat.word.analysis.ManhattanDistanceTextSimilarity

用法以下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new ManhattanDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的类似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的类似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的类似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的类似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的类似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的类似度分值："+score3pk3);

运行结果以下：

我爱购物 和 我爱购物 的类似度分值：1.0
我爱购物 和 我爱读书 的类似度分值：0.33
我爱购物 和 他是黑客 的类似度分值：0.14
我爱读书 和 我爱读书 的类似度分值：1.0
我爱读书 和 他是黑客 的类似度分值：0.14
他是黑客 和 他是黑客 的类似度分值：1.0