需求:算法
两个建筑行业的招标网站发布的招标文档,标题可能不一样,正文大部分相同,如何经过程序判断文档是否一致,从而达到去重的目的学习
现状:测试
一、没有深度学习的基础,只能回归到常规软件算法优化
二、范围限定在建筑行业,招标内容,那有限场景下用穷举法是没问题网站
三、容许必定重复率,后期能够手动或者算法优化去重blog
分析思路:文档
一、每个标书都有N个要素:时间,地点,人物,金额等等,逐个分析,哪一个是必须的,它出现的方式有多少种get
二、将全部已下载标书遍历,看看要素字段获取成功率,低于90%,说明还有经常使用的字段词汇,没有穷举出来,找出来补充到脚本里面去便可深度学习
三、比对文档类似度问题,转变为比较N个要素一致性的问题,能够用SQL进行查重,也能够用ES引擎来作查重。test
获取文档中的要素的测试代码(test.rar,在文件下载区):
一、能够获取招标金额,有小缺陷
二、能够获取项目地址