随着公司产品UiBot的影响力在国内外不断加强,与合做伙伴签定的合同也变得愈来愈多,故此致使业务人员对合同关键信息的提取工做,变得日益繁重。html
基于此,公司内部关于电子合同信息提取的流程自动化需求应运而生。工具
如下是关于RPA+OCR提取电子合同信息的流程视图。ui
基于电子合同信息的提取,根据文件类型,分为两大类:Word和PDF。htm
一、Word类。 Word类的会直接用RPA机器人UiBot从信息里面根据字符规则提取出关键信息,生成结构化数据,固然,也会碰见有些Word文档是补充协议等,没有相关要提取的信息,这类会根据业务规则直接在流程里面,根据模板判断划分出来。对象
二、PDF类。 PDF类的会根据里面信息分为两类,一类是文字型,一类是图片型。blog
文字的可使用UiBot的窗口元素中的预制组件获取元素文本或者文本中的获取文原本提取关键信息。(须要注意的是使用Acrobat的时候,须要在编辑中选择辅助工具来作以下图操做)图片
图片类的,就必需要使用OCR来进行识别,而后进行信息提取,由于上面有盖章等不一样因素的影响,正确率并不能保证百分之百,甚至也没有关键性能够回流验证的信息,因此生成的结构化数据仍须要人工二次校验,才能够录入系统,因此基于图片类的电子合同,并无为业务人员节省多少时间,无非是图片类的电子合同占比并不高,因此影响不大。文档
固然此类电子合同都是使用公司固定的统一模板,因此整体业务并不复杂,但若是合同模板不能统一,各有特点,可能就须要根据各个模板的类型来作归类划分和业务异常处理。get
另外一方面,就技术上来讲,也能够直接用源码模式来引用Office(Word,PDF文字类)的对象直接后台处理,相比较而言,处理速度会比较快一些。源码