文丨马磊html
OCR是一种与RPA机器人协做的一项重要技术,至关于机器人的眼睛。机器学习
OCR是英文“Optical Character Recognition/Reader”的简称,光学字符识别。从名字咱们不难看出,OCR就是读取手写和印刷文字,并把读取的信息转换成能够在电脑的Excel,World等软件上使用的文字信息处理技术。学习
当前的信息化社会,大量的文件被电子化,纸质的文件愈来愈少。但事实上依然存在不少不得不使用纸质文件的状况,好比说街头调查问卷。OCR技术的诞生能够取代人工读取纸质文件的工做,并将纸质文件的信息电子化。ui
RPA目前活跃在以金融机关表明的企业中,可是这些企业的纸质媒体和打印数据等非电子化的数据仅仅依靠RPA来进行业务处理的话仍是至关困难的。这就为RPA技术与OCR技术的协同合做提供了契机。htm
在只有RPA的状况下,须要员工手动把纸质文件的信息录入到Excel,Word等电子文档中,而后运行RPA机器人读取电子文档中的信息实现业务的自动化处理。对象
而RPA + OCR的状况下,只需实现扫描好纸质文件,OCR会自动读取扫描文件,将图片信息读取并写入Excel等文档中,而后RPA机器人运行,进行业务处理。这个过程彻底替代了人工手动录入,极大地节约了人力成本。blog
近年来, OCR引发了普遍关注,但目前的OCR软件存在精度不高和没法应对非固定文件模板等课题。将来经过在OCR中引入AI的深度机器学习等技术之后,相信必定会解决这个课题。图片
Fax-OCR是把传真机接收的订单等纸质文件经过OCR技术自动转为文本信息的技术。虽然说如今社会尤为是国内公司,不少都是网上接单了,可是用传真接收客户订单这种古老的方式仍是在必定程度上存在的。尤为是日本的小型公司依然采用这种老旧的接收订单的方式。若是把传真资料自动读入系统将减小大量人工录入的费时操做,同时人工失误也会大幅减小。文档
OCR技术确实能够自动实现数据的文本化,也是一项很是有效的效率改善的技术手段,可是如今的阶段OCR并不是无所不能。get
一、没法对应多份文件。
通常来讲,OCR 须要读取文本内容以及文件内容的模板,并定义好抽出的对象数据的位置。可是,因为客户的文件模板并不统一,文件模板和数据坐标位置也不尽相同,这种状况应对起来就比较困难了。因此对于一些既有模板之外的文件要格外注意。
二、文字数据抽出后,必须进行人工确认。
虽然AI-OCR能够经过机器学习技术去识别手写文字,可是不少不清楚,或者写法不鲜明的文字仍是很难作到完美识别。所以,数据抽出完毕后仍是要经过人去确认数据的正确性。