文档扫描OCR简介

文档扫描OCR识别简介

文档扫描OCR识别(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个文档扫描OCR识别系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

一般情况下办公人员想得到的是双层PDF文件——双层PDF文件是一种具有多层结构的格式文件,其特点是:文件既可以是文本型的(比如由word生成的文件),也可以是图像型的(比如由扫描生成的文件);双层PDF文件是指文件内容既包含文本层,也包含图像层,且其位置上下一一相对应。通过文档扫描OCR识别得到的双层PDF可以在打印的时候保持原图输出,并且可以全文检索复制,是一种非常完美的文件。

文档扫描OCR识别技术的应用方式

由于扫描仪的普及与广泛应用,文档扫描OCR识别软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。因此,文档扫描OCR识别软件主要是由下面几个部分组成。

图像输入、预处理:进行顺序,以及识别前的准备

二值化:进行识别胶的图片处理,变为黑白两色的图片(在一些专有设备上可以用红外拍摄照片)

噪声去除:去除图片的一些噪点和干扰因素

倾斜较正:对于扫描倾斜的图片,进行倾斜校正

版面分析:把页面分为横排文本,竖排文本,表格,图片等不同区域进行针对识别

字符切割、字符识别

版面恢复:通过版面分析,将各个区域识别后按位置输出,实现和扫描图片一样的word布局输出

工作流程

一个文档扫描OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。

从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。

影像输入

欲经过文档扫描OCR识别处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对文档扫描OCR识别有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进文档扫描OCR识别处理的效率。

影像预处理:影像预处理是文档扫描OCR识别系统中,须解决问题最多的一个模块。影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的提纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。

对比识别

这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。

字词后处理:由于文档扫描OCR识别的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为文档OCR识别系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。

人工校正

文档扫描OCR识别最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是文档扫描OCR识别出错的地方。一个好的文档扫描OCR识别软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响文档扫描OCR识别的处理效率,因此,文字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的错,就完全看使用单位的需求了。

结果输出

有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样,所以有原文重现的功能、有人注重表格内的文字,所以要和Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。如果需要还原成原文一样格式,则在识别后,需要人工排版,耗时耗力。

识别技巧简介

资料录入

文献资料的数字化录入,一般分为:

1.纯图像方式。

2.目录文本、正文图像方式。

3.全文本方式。

4.全文索引方式。文本方式和图像方式的混合体。

识别过程

书本级:中文,英文;简体,繁体;

版式级:竖排,横排;有无分栏;

行切分 字切分

识别:真正的文档OCR识别识别过程,图像信息还原成文本信息

后处理:人工干预,主要集中在前四个阶段。

决定因素

1.图片的质量,一般建议150dpi以上

2.颜色,一般对彩色识别很差,黑白的图片较高,因此建议文档OCR识别的为黑白tif格式

3.最重要的就是字体,如果是手写识别率很低。

国内文档扫描OCR识别简体差错率为万分之三,如果要求更高的精度需要投入更大的人工干预。繁体识别由于繁体字库的不统一性(民国时期的字库和现在繁体字库不统一),导致识别困难,在人工干预下,精度能达到90%以上(图文清晰情况下)。