文本相似度算法：文本向量化+距离公式

时间 2020-12-25

原文原文链接

1. 文本向量化 1.1 词袋模型词袋模型，顾名思义，就是将文本视为一个 “装满词的袋子” ，袋子里的词语是随便摆放的，没有顺序和语义之分。 1.1.1 词袋模型的步骤第一步：构造词典根据语料库，把所有的词都提取出来，编上序号第二步：独热编码，D维向量记词典大小为D，那么每个文章就是一个D维向量：每个位置上的数字表示对应编号的词在该文章中出现的次数。 1.1.2 词袋模型的缺点只统计词

>>阅读原文<<

1. 文本相似度——编辑距离
2. 文本相似度算法
3. 文本相似度度量
4. 距离和相似度度量方法
5. 计算文本相似度
6. 使用余弦相似度算法计算文本相似度
7. 距离度量与相似性度量
8. 距离和相似性度量方法
9. 文本相似度算法总结
10. 文本相似度之Levenshtein算法
更多相关文章...
• XSD 仅含文本 - XML Schema 教程
• C# 文本文件的读写 - C#教程
• 算法总结-广度优先算法
• 算法总结-深度优先算法