文档类似度比对之穷举法

需求:算法

两个建筑行业的招标网站发布的招标文档,标题可能不一样,正文大部分相同,如何经过程序判断文档是否一致,从而达到去重的目的学习

 

现状:测试

一、没有深度学习的基础,只能回归到常规软件算法优化

二、范围限定在建筑行业,招标内容,那有限场景下用穷举法是没问题网站

三、容许必定重复率,后期能够手动或者算法优化去重blog

 

分析思路:文档

一、每个标书都有N个要素:时间,地点,人物,金额等等,逐个分析,哪一个是必须的,它出现的方式有多少种get

二、将全部已下载标书遍历,看看要素字段获取成功率,低于90%,说明还有经常使用的字段词汇,没有穷举出来,找出来补充到脚本里面去便可深度学习

三、比对文档类似度问题,转变为比较N个要素一致性的问题,能够用SQL进行查重,也能够用ES引擎来作查重。test

 

获取文档中的要素的测试代码(test.rar,在文件下载区):

一、能够获取招标金额,有小缺陷

二、能够获取项目地址 

相关文章
相关标签/搜索