如何用PostgreSQL解决一个人工智能语义去重的小问题

时间 2021-07-12

原文原文链接

在云栖社区的问答区，有一位网友提到有一个问题：表里相似数据太多，想删除相似度高的数据，有什么办法能实现吗？例如：银屑病怎么治？银屑病怎么治疗？银屑病怎么治疗好？银屑病怎么能治疗好？等等解这个问题的思路 .1. 首先如何判断内容的相似度，PostgreSQL中提供了中文分词，pg_trgm(将字符串切成多个不重复的token,计算两个字符串的相似度) . 对于本题，我建议采取中文分词

>>阅读原文<<