PartA Introduction, Background, Fundamentals:

Suzanne Briet (1894–1989) is recognized for her pioneer role in laying the foundations of modern information science. In her manifesto titled Qu’est-ce que la documentation? (“What is documentation?”), she defines a document as evidence in support of a fact; a physical or symbolic sign, preserved or recorded, for representing, reconstructing or demonstrating a physical or a conceptual phenomenon. Thus, a document documents something, it is a representation serving as evidence for some purpose. We can also say that the information it provides is presented in such a way that the producer of the document becomes able to convey this information to its users/readers, in an intelligible way. This again means that producer and reader use shared representation rules for the information.正则表达式

苏珊娜(1894—1989)奠基现代信息科学基础上的先驱角色。在她题为(“什么是文档?)她将文件定义为支持事实的证据;保存或记录的物理或符号符号,用于表示、重建或演示物理或概念现象。所以,一个文档记录了一些东西,它是一种表示,做为某种目的的证据。咱们还能够说,它所提供的信息是以这样一种方式呈现的,即文档的制做者可以以一种可理解的方式将该信息传达给其用户/读者。这再次意味着生产者和读者使用信息的共享表示规则。算法

Compared to oral communication, the main difference is the preservation of the representation, so that the consumer of the information does not need to communicate directly and immediately with its producer. The most ancient and well-known document type is of course the written document; the introduction of writing was of such importance for mankind that historians usually consider that history starts at that moment, when knowledge of the past can be recovered from written records.网络

与口头交流相比,主要的区别在于保留了表达方式,使得信息的消费者不须要直接、即时地与信息的生产者进行交流。最古老和最著名的文献类型固然是书面文献;对人类来讲,文字的引入是如此重要,以致于历史学家一般认为,历史始于那个时刻,那时能够从书面记录中恢复对过去的认识。并发

n Chap. 1 (A Brief History of Documents and Writing Systems), Henry Baird introduces us to writing systems and briefly reviews the history of written documents. Throughout the centuries, these documents have been physically produced on various materials, using many different writing or printing processes, until this century’s documents which are very often originally available in electronic format. Elisa Barney Smith reviews the evolution of these creation processes and equipment in Chap. 2 (Document Creation, Image Acquisition and Document Quality). She also introduces us to the numerous acquisition processes for converting physical documents into images for further processing by appropriate software tools.app

在第一章(文献和书写系统的简要历史)中,亨利·贝尔德向咱们介绍了书写系统,并简要回顾了书写文档的历史。几个世纪以来,这些文件一直是在各类材料上实际制做的,使用许多不一样的书写或打印过程,直到本世纪的文件,这些文件最初经常以电子格式提供。Elisa Barney Smith在第二章(文档建立、图像采集和文档质量)中回顾了这些建立过程和设备的演变。她还向咱们介绍了许多采集过程,将物理文档转换为图像,以便经过适当的软件工具进行进一步处理。electron

When people hear about document image processing, they probably think first and foremost of optical character recognition (OCR). But in the same way as children do not only learn to decipher characters, but progressively learn to understand complete documents, document analysis systems also have gone much further than just OCR. This evolution from character to full and complex documents is presented by Henry Baird and Karl Tombre in Chap. 3 (The Evolution of Document Image Analysis).ide

当人们据说文档图像处理时,他们可能首先想到的是光学字符识别(OCR)。但一样地,随着孩子们不只学会了破译字符,并且逐渐学会了理解完整的文档,文档分析系统也已经远远超过了OCR。亨利·贝尔德(Henry Baird)和卡尔·汤姆布雷(Karl Tombre)在第三章(文档图像分析的演变)中提出了从文字到完整复杂文档的演变过程。工具

A common, fundamental toolbox for all these document analysis systems is that of image processing algorithms applied to document images. Image processing as a whole would deserve a full handbook on its own, but in Chap. 4 (Imaging Techniques in Document Analysis Processes), Basilis Gatos presents an overview of the most fundamental image processing methods needed in any document processing and recognition system.布局

全部这些文档分析系统的一个共同的基本工具箱是应用于文档图像的图像处理算法。做为一个总体,图像处理自己应该有一本完整的手册,但在第4章(文件分析过程当中的成像技术)中,Basilis Gatos概述了任何文件处理和识别系统所需的最基本的图像处理方法。性能

1. A Brief History of Documents and Writing Systems

Contents
Introduction. ........................................................................................ 4
The Origins of Writing............................................................................. 4
Writing System Terminology. ..................................................................... 4
Reading Order and Segmentation. ................................................................. 5
Types of Writing Systems. ......................................................................... 7
Origins of Writing Media.......................................................................... 8
Punctuation.......................................................................................... 9
Conclusion. ......................................................................................... 9
Cross-References. .................................................................................. 10
References. .......................................................................................... 10
Further Reading. ................................................................................ 10
摘要

This chapter provides a review of the history of written language, with emphasis on the origins and evolution of characteristics which have been found to affect – and in some cases continue to challenge – the automated recognition and processing of document images.

本章回顾了书面语言的历史,重点介绍了影响文档图像自动识别和处理的特征的起源和演变,在某些状况下,这些特征会继续受到挑战。

简介

高尔丰富的书写历史说明[2]清楚地代表,除了手写或机器印刷在平面上的文字外,人类的交流还包括岩画(许多史前人的做品)、留言棒(澳大利亚土著人的做品)、用点和线标记的豆子(印加文)、奎普文(用头发或棉线打结的做品);印加加加中国、非洲、波利尼西亚等国)、万普姆带(北美土著)、科里贝壳组(尼日利亚约鲁巴)和理货棒串(托雷斯海峡群岛)。尽管以上这些都尚未被计算机自动读取,但能够想象,文档图像分析研发界有朝一日会尝试使用它们。

书写的起源

高尔区分了“思想写做”(即“直接传达思想”,例如“树的画”是指“树”)和“声音写做”(即经过一组传统的符号使语音可见)(桑普森称之为“声门图”系统[7])。帕克斯[6]将西方早期语言与写做的关系描述以下:

在古代,书面文字被视为口头文字的记录,文本一般被大声朗读。但从六世纪开始,人们对书面语的态度发生了变化:书面语被认为是经过眼睛直接向大脑传递信息,塞维利亚的伊西多尔(约560-636ce)能够表示对沉默阅读的偏心,沉默阅读随后成为一种规范。

丹尼尔斯和布莱特1996年对世界写做系统的调查列出了50多个主要家庭,其中一些家庭有十几个或更多的子家庭。书写习惯(尤为是语音)的巨大多样性代表,许多书写习惯在很大程度上是武断的文化发明:固然,这种多样性仍然是自动识别面临的最使人困惑的技术挑战。写做系统进化的关键阶段也没有被彻底理解,并且可能一直如此。或许正由于如此,目前的写做体系显得很是混乱:几乎没有什么普遍适用的规则是显而易见的。即便是有着悠久历史记录的系统,尤为是中国的系统,也倾向于挑战彻底系统的分析。相似的悲观主义,毫无疑问被现代语言学的进步所限定,可能被扩展到数千种已知的语言中,其中只有一小部分享有书写系统。(2009)SIL族群(4)列出了6909种现存的人类语言,估计有7000到10000种不一样的生活语言存在。

书写系统术语

首先,简要回顾一下用来描述书写系统外观的术语,就像现代文档图像分析系统一般作的那样,从一张纸(一个“页面”)的图像开始,并在其上墨迹信息。此图像可能包含文本区域和非文本区域的混合。文本区域一般包含组织成文本“行”的文本块(或“列”),文本“行”能够(根据语言)水平或垂直运行(不多以螺旋方式)。在一个块中,文本行一般是从上到下(对于水平行)和从左到右(对于垂直行)读取的;这种选择彷佛是任意的,但有趣的是,它适用于许多古代文本以及几乎全部现代文本。文本行内的阅读顺序也因语言而异;在一些古代文本中,顺序从一行切换到另外一行,所以若是一行从左到右阅读,那么下一行从右到左阅读(这是一个技术术语boustrophedonic,来自希腊语“如牛犁”)。文本行包含语言中单词的符号图像(和标点符号,讨论以下)。几乎在世界上,这些词的书写顺序与人们说话的顺序是同样的。

从新回顾基本术语,将文本行图像分割成哪些较小的元素?在全部西欧(和许多其余)书写系统中,“词空间”惯例有助于将文本行分解为“词”图像;尽管,这些图像可能包含标点符号,所以不能直接映射到语言文字上。即便在这些系统中,使用纯粹的“几何”线索(例如经过估计局部类型大小来缩放分隔字符的水平空间的分布)也很难可靠地实现自动分割:歧义一般须要符号识别的帮助,甚至须要更高级别的解译。

阅读顺序与切分

因为口语中的词是按时间顺序出现的,几乎全部的语音书写都是按空间线性排列的。相比之下,大多数写做媒体都是二维的(至少如此),可是从语音中复制出来的线性惯例不多利用这些额外的维度。一些“原始的”写做,如桑普森所讨论的尤卡希尔信息,不编码任何固定的语序,所以能够在多种叙述中“大声朗读”;一些现代的“超文本”写做,如数学和音乐,扩展到一个维度之外(本书稍后将对此做更多介绍)。一旦一页文本被分解(分割)成块和文本行,并推断出预期的阅读顺序,识别就面临一类很是简单的线性化问题

独立于文献分析界,语音识别(更普遍地说是计算语言学)研究与开发界从20世纪70年代开始发现了一类动态规划优化算法在分析时间序列问题中的威力。依赖于线性排序效率的方法包括文法、马尔可夫模型、隐马尔可夫模型、动态时间规整、有限状态传感器等。这些算法的进步,革命性地改变了其余领域,在20世纪90年代早期以前,在文档分析领域的渗透是缓慢的;可是这个过程如今已经开始了。大多数动态规划方法的效率取决于适用于许多一维问题但不多推广到更高维的特殊性质(一般称为“最优子结构”,早期也称为“最优性原则”),这一点并无获得普遍的认识。从这个意义上说,许多二维(和更高维)优化问题彷佛在本质上更难解决:这可能部分是由于布局分析方法的发展相对文本识别方法慢。

其余语言,尤为是主要的现代东亚语言,缺少文字空间的约定,所以下一个层次的切分必须与单个符号直接相关。在一些书写系统,如阿拉伯语中,一个语言单词被写为一系列间隔开的符号组(“子单词”):真言空间与词间断句一块儿存在,从而使分割复杂化。许多手写体都是草书,其中一个单词中的许多(或所有)符号是相连的。即便在一些机器印刷系统中,如阿拉伯语,书法的影响仍然很强,字体的设计模仿谨慎但仍然是草书。

很天然地,假设全部这些依赖于语言和书写系统的策略都被建模并实现为一种分割算法,可以从文本行的图像中检测和隔离每一个单独的符号,这些符号一般是书写语言的基本单位,例如字母表容许的字符形状或音节

然而,语言符号和符号图像之间的一对一直接映射的例外状况出人意料地频繁。连字(一般是有向图和缩略词)将两个或多个语言符号合并成一个书写字符。在一些书写系统中,例如中世纪的手稿,容许的缩略词的数量能够超过基础字母表中的字母数量。对文档识别工程的影响多是使人望而生畏的:实际上,为了图像识别的目的,字母表已经扩展了,也许是一个很大的因素,增长了为每一个类收集标记样本的工做。更严重的多是,在文件图像中发现的“字符”集合在一开始多是未知的;变化多是在飞行中发现的;什么是合法的变化(不是印刷错误或曲解)可能不清楚;可能须要咨询专业的历史学家。从这个意义上说,许多书法书写系统,甚至在西方,都是“开放的”,缺少一套固定的传统字体。

一个被正确隔离的符号的图像被称为一个图(一些权威人士更喜欢术语graphemes,这里称之为符号)。如今考虑从文档图像中分割的全部图的集合;字符分类器的任务是为每一个图分配正确的语言字符标签(在压缩的状况下,正确的输出是一系列语言标签)。如今,因为打印(例如,文本大小、墨迹、纸张质量)、手写、成像(点扩展功能、扫描分辨率等)的变化无常以及甚至在分割样式上的变化,同一符号的图形能够预期在细节上有所不一样。固然,这种变化是文本图像分类器设计的主要技术挑战。

但因为其余种类的变化,还有更深层次的挑战。在某些书写系统中,容许使用多个形状来表示单个符号:这样一组视觉上不一样但语言上相同的字符形状有时称为异体字。做为分类器训练的一个实际问题,底层形状可能很是不一样,所以必须将它们分为不一样的类:在这种状况下,图像识别所需的类不能一对一地映射到语言类上。可是,从另外一个角度来看,在训练过程当中,不能在不一样的同种异体图像之间进行归纳能够被判断为可训练分类器技术不足的症状,若是这种批评是合理的,那么该技术难道不能在诸如图像质量的极端等其余变体之间进行归纳吗?事实上,文档识别工程师常常感到有必要对训练集的标记、类的划分和组合、或将它们组织成树结构进行手动调整(语言学家可能认为这是不相关的、分散注意力的干预措施)。尝试分类树(CARTs)的一个动机是但愿最小化这种多是开放的手动“调整”;不幸的是,训练好的树老是在计算上使人望而却步或是弱启发性的。请注意,因为书写系统和排版惯例的某些“开放式”特征,这些问题甚至可能出如今高科技文化中的现代语言中。

此外,还有一个风格上的问题(和承诺):我的的写做个性就是一个例子,机器印刷中的字体也是一个例子;图像质量也能够做为一种风格来考虑(稍后将对此作更多介绍)。

书写系统类型

哈里斯1986年的写做系统史[3]试图将世界写做系统中使用的各类符号(他称之为“符号”)分类以下:

字母符号:一组符号,表明语音中出现的一整套辅音(如“s”)和元音(如“a”),如英语、最古典和现代的西方文字(可能“最终来自公元前2千年下半叶的北闪米特字母”)

音节:一组符号,每一个音节一个(短辅音元音或辅音辅音组合),例如“ka”(日语)

符号学:一组“表示单词但不表示发音”的符号,如用“$”表示“美圆”,在整个中国汉人系统中常用(日本和韩国也使用)

象形文字:以简化图片的形式表示其所表明的事物的符号,如用射线表示太阳的圆圈,也能够用某些埃及象形文字来表示

表意文字:符号“表明信息的总体概念,而不是它的任何特定形式”,如在箭头符号中表示方向

尽管这个分类法很简单(仍然有点争议),但对于本章的目的来讲,它应该足够清楚。文档识别的主要含义是:(a)字母、音节和符号系统几乎支配了全部现代(和许多古代)脚本;(b)象形文字和表意文字系统的识别相对被OCR社区忽略(商业文档中的“徽标”识别除外),尽管随着“城市景观场景”的挑战愈来愈受到重视,包括交通标志的检测、隔离、识别和解释问题,以及迅速增加的“国际”标志和符号,这种状况可能会发生根本性的变化;(c) 字母表每每比音节表小得多,音节表又比符号集小得多,这对监督培训的工程成本有重要影响;和(d)虽然字母表和音节表一般是“封闭的”(完整的和固定的),但符号系统每每是“开放的”(不完整的,可自由扩展)。

很难把书写系统中全部的变化都归纳出来。然而,在几乎全部的语音书写系统中,一个强烈的倾向是对单个符号图像使用紧凑的“物理支持”:也就是说,它们都倾向于在近似大小相等的小的非重叠的细胞中进行拟合。

文档图像识别的含义是使人望而生畏的:为了处理一种新的语言,必须克服几个障碍,包括:对所使用的全部字形的描述,字形样本的收集(每一个字形有许多样本,每一个不一样样式有更多样本),页面布局惯例的分析,积累字典(词汇或词法分析器),至少。其中一些障碍可能须要专业语言学家的帮助。

写做媒介的起源

早期的书写材料种类繁多:高卢突出了石头、树叶、树皮、木材、粘土、皮肤、动物骨骼、象牙、竹子、玳瑁和许多金属,尤为是铜和青铜。虽然相对容易腐烂,但一块埃及木制书写板从公元前2000年左右就保存下来了。公元前1700年左右,“一些最先的中国文字”就保存在“甲骨文”的骨头上。蜡制书写板,方便重复使用,最先起源于公元前8年,被古希腊人和罗马人普遍使用;然而,罗马法律是经过在门上展现的铜板上的铭文公布的。

某些书写媒介的生产规模显著增加,甚至在古代,从美索不达米亚的粘土板开始,一直到埃及的纸莎草。在南亚和东南亚,直到近代,棕榈叶一直是主要的培养基。大量的棕榈叶保存下来,其中许多包含耆那教、佛教和印度教经文:这些已经成为严肃的文档图像识别研究的对象。全世界对保存和获取历史文献的兴趣迅速增加,彷佛不多有这些神秘的文献类型没有受到影响,并揭示了许多新的技术挑战。

请注意,上述三种书写文化中的每一种都聚集了大量的文件,这些文件显然旨在在材料、大小和外观上高度统一,包括符号的书写顺序和形状。大量受过统一训练的专业文士干部,证据确凿。现代写做风格的普遍多样性——其实是丰富的创造性变化——今天人们可能会想固然地认为这不是早期社会的常态,它只随着工业时代的到来而加速。当今文档识别研究中的一个重要技术趋势是对样式意识方法的兴趣,这种方法能够利用输入图像上已知(或仅仅是猜想)的一致性。书面语料库越老,就越有可能以统一的风格进行构建:所以,现代风格意识方法在应用于前现代文档时可能会特别有效(甚至使人惊讶)。

另外一个重要的含义是,每一种媒介均可能,并且每每会影响写做风格的演变。例如,因为雕刻(凿)大理石所特有的技术限制,在记念性的古典碑文(例如具备高度影响力的图拉真柱)中引入了衬线。衬线进入现代的生存表面上是因为美学,尽管人们能够说它们也有助于易读性。

一些写做材料(并且仍然)比其余材料要贵得多。相对持久的媒介(如牛皮纸)的花费推进了精心设计的中世纪抄本惯例的发展,以节省空间,包括大量简洁的缩略词和变音符号。

标点符号

帕克斯在1993年进行了大量的图解研究[6]代表,至少在西方,到了中世纪,

标点符号成为书面语言的重要组成部分。它的主要功能是解决文本中的结构不肯定性,并表示语义意义的细微差异::。

然而,标点符号的功能却不多受到古典甚至现代计算语言学家的关注。一个例外是Sproat 2000年的正字法形式理论[8]包含了几个现代书写系统,包括俄语、汉语和韩语:他的主要目的是分析编码文本语料库,以便驱动(控制)一个可理解的文本到语音合成系统;他指出,这须要在“浅”和“深”两个层次上创建有限状态模型;他还指出,这种完整的模型不太可能从纯统计推断的训练数据中学习。Nunberg 1990年深思熟虑的研究[5]代表,英语中的标点规则比最早进的OCR机器中使用的正则表达式要复杂得多。

结论

在书写系统的历史上,一些对文档图像分析研究和开发社区具备潜在重要性的明显趋势,据所知,没有获得任何形式的持续学术关注。目前做者还不清楚对黑白(双层)文档早期和持续占主导地位的缘由的仔细研究。尽管人们对某些(主要是西方和亚洲)字母(以及音节、表意文字系统等)的演变了解得不少,但有关从开放符号集到有限和固定符号集的关键转变的细节却经常缺失。(有趣的是,将这一事实与全部现存语言中词典的持续开放性进行对比。)在大多数有着悠久历史的书写系统中,符号图形已经从复杂的形式稳步发展到相对简单的形式。在活生生的记忆中,汉文书写系统经历了对更小符号集和简化字形的戏剧性改进。一个如今看来异常甚至尴尬的事件发生在早期OCR系统的制造商对处理天然出现的印刷文本感到绝望,并发明了OCR-A和OCR-B等“OCR字体”以使他们的问题更简单,而后认真地(若是没有效果的话)提出了普遍的商业用途。

2 Document Creation, Image Acquisition and Document Quality

Contents
Introduction. ........................................................................................ 12
Document Creation Materials...................................................................... 12
    Writing Substrates. ............................................................................. 12
    Inks. ............................................................................................. 17
Writing and Printing Processes. ................................................................... 20
    HandHeld Writing Instruments. ............................................................... 20
    Machine Printing ............................................................................... 23
Acquisition Methods. .............................................................................. 39
    Flatbed Scanner and Fax Machine Acquisition............................................... 39
    Cameras and Mobile Devices. ................................................................. 44
    Video............................................................................................ 46
    Other Specialty Modes. ........................................................................ 47
Document Quality.................................................................................. 48
    Factors Affecting Document Quality.......................................................... 48
    Effects of Document Quality on Analysis and Recognition Results. . .... .... ..... .... .... .. 50
    Models of Document Degradations. ........................................................... 51
Conclusion. ......................................................................................... 59
References. .......................................................................................... 60
Further Reading. ................................................................................ 60
摘要

本文概述了用于建立文档的材料、建立打印文档的方法以及获取该文档的数字版本的方法。介绍了当前和历史的方法、材料和过程。除此以外,还讨论了图像降级可能进入进程的位置。全部这些都与这些方面如何影响文档识别能力有关。

简介

文档能够手工建立,也能够经过机器建立。在这两种状况下,有几个因素影响最终外观,包括含量、颜料、将颜料转移到纸张上的仪器以及纸张自己。人或机器如何感知文档外观取决于文档是如何得到的。纸上被认为是好质量的东西,当直接被人眼接收并被人脑处理时,当数字化后再在监视器上观看时,并不老是被认为是好质量的。一样,一我的认为原始或数字化版本的良好感知质量并不老是可以使高精度机器识别文档内容的质量。

为了帮助解释文档源与其质量之间的关系,本章肯定了质量能够下降的链接点,如其所述:

•材料——材料,如纸张和墨水;人员:以及用于建立文档的机器。

•流程-手工或机器建立打印文本的当前和过期流程。特别是过期的过程是为技术档案工做者在历史文献收藏中看到。

•获取方法——将文件转换为数字形式的方法,有助于文件图像的自动处理和识别

•模型-记录生产模型、质量度量以及质量如何影响识别结果。

文档建立材料

这是对一些材料的概述,这些材料随着时间的推移被用于建立文档,并显著地塑造了文档的外观。材料包括文件出现的基底,一般被认为是“纸”的一种形式,以及显示书面信息的墨水。纸张和墨水的选择部分是历史性的,由可用的材料和技术决定,部分是由书写或印刷过程决定的。将油墨转移到承印物上能够用书写工具手工完成,也能够用印刷机完成。图2.1包括不一样材料和书写和打印方法的示例,以及它们首次引入的时间。每个都引入了一个影响最终文件外观的新变量。

书写基底

书写基质是书写表面。使人惊讶的是,尽管自从最先的人类开始写做以来,已经有不少人开始写做,但许多基础的基础并无改变那么多。可供研究的最古老的文字之因此被保存下来,是由于它是在石头上书写或雕刻的,或者是由于它被印在泥板上。虽然这些材料寿命长,在某些地区也很丰富,但并不特别便于携带。几乎任何能保留刷子或钢笔痕迹的便携式物质都被用做书写基质。这包括树叶、树皮、木板和布。在中国,人们在竹竿上发现了古老的文字,在印度,人们在桦树皮和棕榈叶上发现了古老的文字。玛雅人用无花果树的内部树皮在“纸”上写字,树皮上覆盖着一层薄薄的石膏状物质,文字被画在“纸”状的灰泥画上。和今天的书同样,这些书被扇形折叠成书的形式。

从纸莎草到羊皮纸和纸

最著名的古代书写材料是纸莎草,现代的文字纸就是从纸莎草中衍生出来的。早在公元前3500年,埃及人就用纸莎草来造纸。纸莎草是一种叫莎草的芦苇。去掉外皮,露出被压扁的柔软的内髓,并以直角重叠层铺设条带。这是经过敲打髓部直到植物组织破裂,并从组织的汁液造成一种胶水,将带在一块儿。材料在压力下干燥,一面抛光,造成一个光滑的表面,在上面写字。标准的书写单元,或者咱们今天认为的“页面”,是由其中一个单元的大小演变而来的。其中的几个单元(大约20页)是经过将一个单元的边缘重叠到另外一个单元的边缘,并以相似的方式将这些边缘粘合起来造成一个卷,这个卷被称为拉丁语单词“to roll”的卷。每一个卷包含的信息大约至关于一本现代手写书的7到10页。单词book来自港口的名字Byblos,在铁器时代晚期希腊人经过它进口纸莎草

羊皮纸是一种书写材料,由拉伸和未经编织的动物皮制成,特别是小牛、绵羊或山羊。虽然皮革自公元前2000年起就被用于写做,但它储存得并很差,只能写在一边。羊皮纸在公元前2世纪的一种方法被开发出来,容许两面都用来书写,但里面的一面有一个更光滑的表面,羊皮纸就成为了书写的经常使用材料。在欧洲,从公元四世纪到文艺复兴和纸的引入,它成为主要的书写载体。用小牛或山羊的细皮制成的羊皮纸叫作牛皮纸。随着羊皮纸的使用,书写材料再也不像今天的印刷书籍那样被卷起来,而是装订成册。为了印刷,拉丁圣经须要500多张小牛皮。制做书籍所需的兽皮数量使它们至关昂贵;所以,从新使用羊皮纸变得很常见。墨水是从羊皮纸上刮下来的,或者笔迹是以直角书写的,以便从视觉上区分新的笔迹和旧的笔迹。有了这种再利用的书籍被称为翻版,从希腊语“再刮一次”。即便有了这种再利用,依靠羊皮纸做为承印物的书籍产量也有限。

咱们今天所认为的纸起源于公元一世纪的中国。中国人将造纸的过程保密了许多世纪,直到八世纪袭击了阿拉伯城市撒马尔罕,阿拉伯人俘虏了一些擅长造纸的中国人。随着阿拉伯人在欧洲的扩张,造纸业随之向西移动。欧洲第一家造纸厂于公元1100年在君士坦丁堡创建,造纸术一度在欧洲迅速传播,直到14世纪才在欧洲各地创建起来。在欧洲引进纸张致使书籍产量的增长,同时读者也在增长。

纸张生产

纸的生产首先是在水中把植物纤维切碎并还原成纸浆。一层薄薄的纸浆铺在筛子上,水被排出,造成毛毡。纸浆纤维被磨光并干燥。过程差别致使了现有论文的差别。纸是用手工方法生产的,已经有好几个世纪了,但这限制了纸张的数量或大小,而纸张能够在任何一次生产过程当中生产。第一种机械化造纸工艺是1798年尼古拉斯·路易·罗伯特发明的,1805年亨利和西利·福德林将其商业化。

最初,造纸用的纤维主要由亚麻、黄麻、亚麻和大麻制成。从布破布中提取的纤维在17世纪是一种常见的来源。由棉纤维制成的纸叫作碎布纸。现在,这些纸张一般用于制做高质量的文件和钞票。18世纪开始试验使用稻草纤维,19世纪英国常用埃斯帕托草。开发了一种漂白工艺,能够用有色纤维制成白纸。从19世纪中期在萨克森州开始,大多数现代纸是由树纤维素制成的,发现这是一种合适的纸张来源,大大增长了纸张供应。木材经过机械或化学方法还原成纸浆。磨石间木浆的机械研磨引入了许多杂质,下降了纸张的质量。木质细胞壁是由木质素填充的纤维素网络构成的。机械研磨不能去除木质素,所以产量更高,但随着时间的推移木质素会使纸张变黄,使其变脆。另外一种方法是添加苏打和硫酸盐等化学试剂,以分解将细胞结合在一块儿的木质素。若是化学试剂是苛性钠,柔软的蓬松纤维有利于封面和书写纸张。亚硫酸氢钙或亚硫酸氢镁能产生更坚固或更坚硬的纤维,从而制造出更适合印刷的纸张。随着时间的推移,这些酸会致使纸张和墨水的变质,因此硫酸钠是一种替代品,它能使纸张变得很是坚韧。化学制浆中的纤维比机械制浆中的长,所以,纸张会更结实。

无酸纸的pH值为中性,能够用温和的碱(一般是碳酸氢钙或碳酸氢镁)中和木浆和生产过程当中产生的自然酸。它也不含木质素和硫。它适合存档,由于它不会在很长一段时间内变黄或变脆。若是有足够的碱性储备,这种纸可能能保存1000年。

直到十八世纪晚期,纸才基本上被铺好。纤维被放置在一个有长的平行链节的链状表面上,偶尔被一个垂直的间隙打断。这种模式能够在最后的论文中看到。在十八世纪,为了更好的印刷,编织纸被发展得更平滑。编织的金属丝网输送纸浆,纸张的纹理再也不广泛。今天,编织纸被认为是一种更便宜的纸。水印,也被称为纸张标记,是有意压入谷物的图案。它们在十三世纪开始出如今纸上以代表起源。

废纸能够回收利用,代替原始的木材做为纸浆的来源。纸张必须粉碎,而后返回纸浆状态。一路上墨水必须漂白掉。当纸张返回纸浆时,纤维的长度减小了。这下降了用这种纸浆生产的纸张的质量。所以,它一般与原浆混合。

整理程序(Finishing Procedures)

纸张的表面特性影响着书写痕迹的视觉特性。墨水既能够放在纸纤维上,也能够被纸纤维吸取。欧洲人习惯于在羊皮纸上使用鹅毛笔,他们须要一种结实、耐刮擦、不易吸取的纸。施胶是在纸张上加入明胶、松香、淀粉、树胶或明矾,使纸张更硬,吸水性更低,从而抵抗水性书写墨水中的水。浆纱能够在纸片造成后,经过盆式浆纱,把纸放在明胶浴中,基本上用一层薄薄的胶水覆盖。另外一种方法是,在纸张成形以前,在加工过程当中,经过发动机施胶,纸浆与施胶材料混合。盆形纸比发动机上浆质量更高,由于上浆材料位于最有效的位置,但也更昂贵。上浆使纸张经久耐用,纸张的两面均可以用来印刷。

有好几种纸饰面。它们一般是颜料或载体(粘合剂)的涂层,如碳酸钙或瓷土。涂层能够产生哑光(暗或哑)、半哑光或光泽饰面。纸最初是用粘土刷涂的,以产生一个适合于精细筛选半色调的表面,用于最优质的摄影复制。机器抛光会产生更光滑的表面,一般用于杂志。铜版纸一般是白色的,有文字重量。光泽度会致使印刷时网点增长较少,由于油墨不会扩散太多。未涂布纸有白色和彩色两种版本。艺术用纸是一种上釉的纸,涂上一层瓷土,而后卷起来,使其很是光滑,以便更好地打印插图文档的半色调/屏幕。然而,瓷土涂料与纸张中的酸发生反应,使纸张变脆,褶皱很快就会开裂。1687年纸张首次添加了着色,1770年首次出现了机器刻线。

压延是一种经过一系列钢卷使纸张得到光泽或增长表面平滑度或不透明度的精加工操做。最小压延产生蛋壳或古纸,它有一个粗糙的纹理,是很是“不眩光”,这能够增长可读性。超级压光纸是经过在热辊和冷辊之间反复轧制纸张而获得的一种光滑光亮的表面。机械抛光纸有至关普遍的压延和用于杂志,由于完成使印刷复制很是精细的半色调。

纸张分类、用途和质量

纸张生产材料和工艺影响纸张质量。纸张选项会影响它们的用途、特性和质量。今天买纸要考虑三个因素:等级、白度和不透明度。高级纸比其余纸具备更精细的平滑度、白度和更大的不透明度。此外,还有四种基本的纸张分类须要考虑:债券、书籍、封面和卡片纸。邦德纸(Bond paper)是一种低档纸,在大多数办公室用于印刷和复印。邦德纸有半硬表面,书籍纸有多种纹理。粗糙的纸张极可能会有油墨脱落,在最初的印刷过程当中,油墨从未接触到纸张。墨水根据孔隙率扩散。填充材料,如白色粉笔、粘土和二氧化钛,常常添加到纸浆中,以使其具备更好的不透明性和表面光洁度。封面和卡片一般不用于制做文件(表2.1)。

表2.1纸张特性、用途和质量

纸张按厚度分级。在北美和英国,这是经过测量一卷纸的重量来表示的,它是按照该等级纸的基本尺寸切割的。一个ream有500页,但在过去,ream有480-520页。粘合纸的基本尺寸为17 22英寸。对于书用纸来讲是2538英寸;所以,20磅的胶纸厚度至关于50磅的书用纸。在欧洲,纸张分级要简单得多,使用的重量单位是克每平方厘米(g/m2),有时缩写为gsm。20磅的粘合纸至关于75.2 gsm的纸张。纸张厚度有助于在垂直(正面)侧看到背面印刷品的可能性。压延可使纸张更致密。填料的选择也有帮助。印度纸是一种很是薄的纸,也是不透明的。

墨水

墨水能够分为两类,一类是与手持书写设备一块儿使用的墨水,另外一类是机械印刷过程当中使用的墨水。墨水都是由着色剂(颜料和染料)、载体(粘合剂)、添加剂和载体物质(溶剂)制成的。所需的流动特性取决于油墨的印刷或书写过程,由于油墨必须与转移机构和干燥或固定过程相匹配。油墨的范围从薄和水到粘性,也存在于粉末或固体中。墨水必须自由流动,但不能扩散。它必须容易干燥,不损害纸张或书写工具。

公元前3000年左右的埃及人使用黑色墨水,由碳和红墨水制成,由自然氧化铁制成,悬浮在水中,用树胶或胶水。抄写员的图片和抄写员的象形文字老是包含一个矩形,其中有两个圆圈,表明这两种墨水颜色的井。大约在同一时间,中国人发明了一种相似的黑色墨水,由灯或悬浮在水溶性树胶稀溶液中的炭黑制成。这种墨水被称为“印度墨水”,由于它是经过印度传入西方的。这种墨水须要常常搅拌,使碳保持悬浮状态。碳素颜料没有浸入纸中,而是留在纸表面。这种墨水是稳定的,显示最小的影响,年龄,但水溶性。

铁胆墨发明于公元五世纪,从中世纪到二十世纪成为杰出的书写材料。它是由铁盐(一般是硫酸或硫酸铁)、单宁(一种从橡树瘿中提取加仑单宁的酸)和胶水(阿拉伯树胶,一种从相思树上提取的植物胶)混合而成。随着时间的推移,铁质单宁成分会氧化墨黑,赋予它“蓝黑墨水”的名称。在十九世纪,靛蓝染料首先被添加到油墨中,产生一种酸性较低的蓝色油墨。

油墨中使用的着色剂能够是可溶油中的有机或无机颜料。颜料的粒径为0.1-2米,呈悬浮状。他们须要一个工具把他们绑在纸上。车辆也能够涂上颜料,防止机械磨损(磨损),有时也被称为清漆。颜料有很宽的颜色吸取带。染料在使用过程当中具备更高的颜色强度,产生更多的发光颜色,并在更普遍的颜色范围。染料是溶解的有机化合物。自然染料最初用于染色,但在1900年左右被苯胺和合成染料取代。合成染料几乎只在今天使用。染料能够是透明的,并且颗粒比颜料中的小,但它们比颜料的耐光性差。大多数印刷方法使用颜料,但喷墨打印机主要使用染料。

粘合剂一般是溶解在矿物油中的树脂。添加剂取决于印刷工艺并影响干燥时间、流动性和耐磨性。载体物质是稀化剂,如矿物油或溶剂,如甲苯。

20世纪40年代,圆珠笔被商业化地引进,它使用一种粘性的快干糊状墨水。圆珠笔墨水的颜色来源于合成染料,包括甲基紫、维多利亚蓝和固醇橙、黑松香、铜酞菁和其余有机金属染料。染料和颜料约占典型圆珠笔墨水质量的25%。溶剂或载体由乙二醇等二醇的混合物制成。1950年之前,人们使用亚麻籽油或矿物油。该载体溶解或悬浮染料或颜料,并促进油墨在旋转球表面的平滑流动。车辆一般经过蒸发快速干燥,在纸上留下颜色。溶剂占墨水质量的50%。剩下的25%的墨水是树脂,它能够是自然的或合成的材料,为墨水提供粘度。

在20世纪70年代和80年代,毛毡笔尖和滚筒书写笔被引进,它们使用一种液体墨水,经过笔尖传递并均匀地浸湿纸张。液体墨水比粘性墨水更能渗透纸纤维。胶笔墨水是80年代末推出的粘性墨水,但不到圆珠笔的程度。凝胶是以水为基础的生物聚合物,如黄原胶和黄芩胶,以及聚丙烯酸酯增稠剂。凝胶墨水含有悬浮在粘性介质中的颜料,所以它有较厚的颜料沉积层,使线条更大胆。颜料是不透明的,有多种颜色。颜料一般是铁氧化物和铜酞菁。

除了液体和粘性墨水,墨水也能够是固体。罗马人用铅棒做标记。当1564年在英国发现一个巨大的石墨来源时,人们还不知道它不是铅的一个变种,直到今天这个名字仍然存在。铅笔“铅”由蜡、填料(粘土)、石墨粉和水混合并挤压成棒状,经干燥和窑烧而成。结果是多孔的,能够浸蜡使书写更流畅。彩色铅笔使用彩色颜料与粘土、蜡或脂肪酸、水和像黄芩胶这样的吸取性物质结合。这些是干的,烧成阶段省略。铅笔有好几种硬度,这是因为粘土和石墨的比例不一样形成的。在欧洲,这些范围从9H到H,F,H B,而后是1B到9B。H是一种硬铅,在纸上沉积不多的碳,使标记很是轻,B是一种软铅,写得很是黑。在北美,铅的硬度主要用数字1-4表示,其中1对应于欧洲最多见的硬度1B;2对应于HB;3对应于H;4对应于2H。

机械印刷用油墨(Inks for Machine Printing)

打印机墨水和钢笔墨水大不相同。油墨特性与机械印刷技术交织在一块儿。本节主要介绍油墨,更多关于“机械印刷”一节中肯定的机械技术的细节。活版印刷油墨是粘性的,几乎和油漆同样。从历史上看,它有时被称为黑色“糖浆”,由于它是由亚麻籽油煮成的,当它从生的脂肪中解放出来后,它达到了一种像胶水同样的稠度。这种颜色来自于灯的黑色颗粒,这些颗粒通过研磨和从新研磨,直到它们很是细,不会阻塞最小字母的计数器。现代墨水是由溶剂和塑料的混合物制成的。这些墨水经过吸取到纸上而变干。胶印是一种经常使用的印刷技术,它把一幅印出的图像从印版转移到橡皮布上,而后再转移到纸上。它还使用高粘性糊状墨水。它是由硬树脂,有时是醇酸树脂;植物油(亚麻籽,大豆,木材);或矿物油和颜料。凹版印刷油墨的粘度较低,使其成为液体油墨,所以能够填充凹版印刷单元。常见的溶剂是甲苯、二甲苯或石油溶剂、乙醇、乙酸乙酯或水(有时与乙醇混合)。

打字机用的墨水装在色带上。丝带有时是纺织丝带,丝带的编织一般在字符图像中可见,如图2.4b所示。后来的发展致使了一种带有可移动的黑色墨水膜的胶带的生产,当施加压力时,这种黑色墨水膜会转移到纸上。这条带子比墨带更不容易干。由于它把一层更均匀的墨水转移到纸上,因此它产生的深色区域比色带更均匀。它还防止了字体被粘住,由于字体只接触到不带墨水的胶带背面(图2.5)。

静电复印中使用的墨粉,如激光打印机或复印机中使用的墨粉,不只限于液体墨水,并且一般是碳基粉末混合物。颗粒一般包括磁性载体颗粒,一般是氧化铁,以及熔融的聚合物,以将调色剂附着在纸张上。载体是可回收的,能够是80米,而碳粉是4-8米。没有载体的碳粉有12-20米直径的颗粒。用于静电复印的液体调色剂将包含1~2微米的颗粒,并容许在打印过程当中经过混合调色剂直接混合颜色。

喷墨打印机须要一种低粘度的墨水,这种墨水必须通过过滤,这样颜料团就不会堵塞打印头喷嘴中的通道。喷墨墨水一般是水性的。它们倾向于渗透或渗透基板表面,并可能致使基板翘曲或波动。所以,推荐使用这种印刷方法的特殊涂布纸。一些喷墨纸会融化残留在纸表面的蜡或塑料墨水。

书写和打印过程(Writing and Printing Processes)

墨水能够经过手持设备或更大的机器转移到纸张上。本节介绍这两类技术。这些书写和印刷方法中使用的墨水在“墨水”一节中进行了说明

手持式书写工具

在机器印刷出现以前,全部的书写都是用手持式书写工具完成的。手写和手工打印的文档都是经过将书写工具滑动到书写基底上来建立的。手持式书写工具备不少种,如毛笔、笔尖笔、圆珠笔、毡尖笔和铅笔。笔划的外观由笔尖的形状决定,包括笔尖与书写基底接触时如何变形,以及墨水的特性,如液体类型和不透明度。

希腊人用金属样式在蜡板上作标记。苏美尔人用芦苇在泥片上留下印记。在印度北部,人们使用芦苇笔,这致使了角形文字的发展,而在印度南部,人们使用金属笔,更圆的文字形式演变成不撕纸。在埃及,书写用的触笔是一根芦苇,芦苇的末端被咀嚼成一种刷子,因此书写与绘画类似,但芦苇的核心是墨水。公元前1000年,中国人用骆驼毛或鼠毛刷。中世纪的欧洲抄写员用一种叫作pencillus(“小尾巴”)的小毛笔完成精细的工做,这就产生了pencill一词。笔刷可能具备可变的笔划宽度,而且可能在笔划中有条纹。

 图2.2金属笔尖和书写样本

羽毛笔于六世纪传入欧洲。钢笔这个词来自拉丁语penna,意思是羽毛。从大鸟(一般是鹅)身上切下的笔尖或笔尖。而后将其浸入墨水(一般是水性墨水)中,在空心轴中造成墨水库。笔尖和纸张之间的压力使墨水经过毛细管做用转移到纸张上。经过使用,羽毛笔上的点会磨损,须要再次切割羽毛。这能够由做者来完成,也能够由常常“驻扎”在街道上提供服务并将“文具”一词借给办公用品的切笔人来完成。在19世纪,金属嵌件(图2.2)的发展,以消除不断须要重复的笔尖。早期的金属尖晶石存在缺少柔韧性和腐蚀性的问题,尤为是使用铁胆墨。当用金属笔尖写字时,笔尖上的点在下行程的压力下常常分开,在纸上造成一个充满额外墨水的凹槽,称为“笔尖轨迹”。笔尖的形状影响书写风格,反之亦然。宽笔尖的边缘是平的,笔划的厚度取决于笔划相对于笔的角度。尖头尖头经过施加不一样程度的压力来分离不一样数量的尖头,从而改变行程宽度。自来水笔是笔尖笔,有一个内部的墨水库。第一支成功的钢笔是在1884年研制的。这就消除了笔迹上的逐渐褪色现象,由于笔迹笔的储存器被清空了。

圆珠笔是当今最多见的书写工具(图2.3a)。圆珠笔的第一项专利于1888年颁发给一位名叫约翰·劳德的美国人。他把它们设计成能在粗糙的表面上写字。改进了磨球和测量技术,使钢笔结构良好。

机器印刷

虽然最终人类的手参与了全部的印刷过程,但那些手没有直接参与的过程被认为是机器印刷。机器印刷可分为两大类,冲击和非冲击。冲击印刷是较老的技术,而非冲击印刷已经启用了电子的引进。随着各类新的印刷方法的扩展,全部不须要印版母版的印刷方法都被归类为无影响印刷。

冲印

冲击印刷使用四种主要的方法,使墨水到纸上。这些方法产生的文档具备不一样的图像特征。每一个人都有本身喜欢的纸张和墨水。每种类型的易用性和历史背景的结合影响了每种类型的流行程度以及它们成为文档图像分析主题的频率。表2.2总结了冲击印刷的方法和类型。

凸版印刷

最古老的机器印刷形式之一是将文字或图像雕刻成木块,而后在木版印刷的过程当中,将其上墨并压在纸上。这种印刷品的第一批样品可追溯到公元八世纪的中国。第一本印刷的书是公元868年在中国印刷的《金刚经》,先是卷轴,后是书籍。公元953年印刷了130卷经典著做。这种印刷方法在15世纪在欧洲很常见。每一个版块上都刻满了一页印刷品。因为木块的生产是劳动密集型的,因此用这种方法印刷的材料量很小,可是木块能够长时间使用,每一页均可以印不少份。

无冲击印刷

 电子照相印刷

多音和彩色打印、抖动和屏幕

数字印刷、电子图书和显示器

采集方法

平板扫描仪和传真机采集

照相机和移动设备

录影机

其余专业模式

文档质量

影响文件质量的因素

文献质量对分析识别结果的影响

文档退化模型

结论

The Evolution of Document Image Analysis (文献图像分析的演变)

Contents
Introduction. ........................................................................................ 64
Isolated Character Recognition孤立字符识别. ................................................................... 64
Beyond Recognition of Isolated Characters: Exploitation of Context超越孤立字符的识别:上下文的利用. ... ... ... ... ... ... ... ... .. 66
From Words to Pages, from Pages to Structured Documents, and Onwards to
Non-textual Documents
从文字到页面,从页面到结构化文档,再到非文本文件. ........................................................................... 67

Stubborn Obstacles to Document Image Recognition.文档图像识别的顽固障碍 ........................................... 68
Conclusion. ......................................................................................... 69
Cross-References. .................................................................................. 69
Notes................................................................................................ 70
References. .......................................................................................... 70
Further Reading. ................................................................................ 71

摘要

光学字符识别是计算机科学最先的应用领域之一。当时,人们指望机器可以很快地读取任何文档。历史证实,这项任务比那更困难。本章探讨了文档分析与识别领域的发展历史,从OCR到页面分析,再到尚待解决的开放性问题。

简介

第一台计算机和计算机科学做为一个领域出如今第二次世界大战。一旦这个领域扩展到科学计算和国防应用以外,它的第一个用途就是光学字符识别(OCR)。当时,人们预计机器很快就能读取任何文件。但很快就明显,这方面的进展将比预期的要慢,并且应用程序和需求的巨大多样性将使单字符识别不可能仅仅依靠改进的分数。一个邮政编码的一个数字中的每个错误都会将一封信发送到错误的目的地,一页文本中的五个字符错误一般足以增长OCR后编辑的巨大成本,当问题涉及到提取一个完整文档传递的主要信息时,在不知道打字字体或手写字体的状况下,与破译单个字符相比,分析全局文档“场景”的挑战要大得多。

本章并不伪装提供了文档分析系统如何演变的完整历史,而是指出了这一演变过程当中的一些主要里程碑。

单个字符识别

Schantz在他的OCR历史[1]中提到了1809年美国的一项帮助盲人阅读的专利。到1870年,C.R.Carey用一组光电池来传输图像,到20世纪初,P.Nipkow用“扫描盘”逐行分析图像。1912年,艾曼纽尔·戈德伯格(Emmanuel Goldberg)发明了一种将打字信息转换成电报信息的机器,1914年,埃德蒙·德阿尔贝(Edmund F.D'Albe)发明了一种手持式扫描仪,能够将文字图像转换成声音,以帮助盲人读者阅读。1931年,Goldberg得到了驱动模板匹配字符分类器的光学扫描仪的专利。直到20世纪50年代,“精确地将源模式与模板模式对齐的困难”限制了这种技术和许多相似技术的准确性

1951年,David Shepard演示了一台OCR机器,它可以读取由“标准打字机”打印的23个字母。与此同时,Jacob Rabinow改进了模板匹配,以便在一系列错误注册等中搜索“最佳匹配”,并将字母表扩展到大写和小写。在20世纪50年代早期,技术进步主要依赖于更好的成像传感器和控制传感器和纸张的运动。识别方法包括“区域相关,特征分析,[和]曲线跟踪”;细化包括“噪声滤波和]图像预处理”。应用在50年代后期迅速扩展;大多数是定制设计的:1959年,一台为美国空军制造的机器能够同时读取大写和小写字母数字,但只能用一种字体。甚至打字机字体在1954年也提出了一个挑战,一个OCR制造商建议使用一种特别设计的57格字体进行普遍的标准化打印,以帮助OCR。

在20世纪60年代,打字应用迅速普及,尽管每一种应用都是通过专门训练的,只能处理一种字体;然而,人们广泛认为,这项技术能够在“几乎任何一致造成的字符模式”上进行有效的高精度训练一批文档的格式:指望用户将其输入标准化。很快,顾客们就要求能处理各类文件的机器,包括各类字体。第一台商业化的“多字体”机器出如今1964年;到了20世纪60年代末,这种为美国军队定制的机器“读取63%[:::.]无错误”一个高度异构的输入流文件,其中包含30多种预处理字体的大写和小写字母。在20世纪60年代,全部OCR机器都是大型定制设备,处理大批量的数据,一般速度很是快。

20世纪60年代初,首次出现了有但愿的手写(非草书)汉字实验。在20世纪60年代末,出现了用户可培训的OCR机器,当时市场上称之为(潜在的)“omnifont”;但这些机器不多有效。Rabinow的提案[2]清楚地反映了该技术面临的技术障碍:

一我的对文档的控制越多,阅读机器就越简单,成本也就越低。:::[这怎么能作到?]规范纸张类型,纸张大小,打印质量,格式,字体。

业界对此呼之欲出,因而产生了两种标准的OCR字体(OCR-A和OCR-B)。

到了20世纪70年代末,字符阅读器获得了其余有争议技术的补充,包括条形码阅读器和标记感阅读器。20世纪80年代初,随着传真机的普及,市场发生了重大变化,高分辨率的平板文档扫描仪变得能够负担得起,这些扫描仪与我的电脑相连。而后,OCR公司竞相推出“我的OCR”,其中缺乏了预培训和大多数类型的“控制”。OCR公司经过对大量(数以千万计)来自几十种字体的字符图像进行大规模培训,试图实现他们所宣称的真正的全字体识别系统。

1992年,Mori等人。介绍了OCR研究与发展早期的历史回顾[3]。同时,George Nagy[4]预言性地批评当时依赖于对孤立字符图像的准确识别的艺术状态为“耗尽”,并指出开发更大的上下文(包括文档中的样式一致性)和更普遍的多字符上下文分析(包括布局上下文)的前景。Mori、Nishida和Yamada[5]后来总结了1999年孤立字符识别方法的最新进展。

孤立字符的超越识别:语境的开发

正如Nagy所指出的,若是但愿机器像人类同样阅读,就必须超越孤立字符识别率的进步。事实上,咱们人类不只在一年级学习单个字母;咱们还学习阅读和理解完整的文本,从表格中提取有意义的信息,并经过复杂的文档(如会计报告、新闻文章、诗歌,甚至地图和工程图纸)相互交流。即便是手写文档,其中任何单个字符均可能很是难以破译,也会变得有意义,由于咱们考虑了文档的上下文。

这是从使用发送者和接收者都知道的语言来查看打印、打印或手写文档(如消息)开始的。所以,对书面对象的分析能够考虑语言方面。

桑普森在他开创性的研究写做系统[6]中指出

尽管如今潮流开始转向了(1985),二十世纪的大部分时间里,语言学几乎彻底忽略了写做。

所以,学术界对写做语言学的严肃关注是最近才出现的,当代出现了为非专家使用的“通用”OCR机器。在学术语言学界,计算方法在20世纪70年代之前也一直是少数;即便在今天,OCR研究人员也很难找到语言学界愿意并可以以随时可用的数据和软件形式分享其看法的同行。咱们认为,这一事实反过来大大减缓了语言学家利用文档图像识别技术开发知识的速度。

自动生成天然语言文本的最先步骤之一是提供一种检查单词合法性的方法。最简单的手段固然是或多或少详尽的列表,或者扁平的词典。在OCR系统中,最先的词典上下文开发依赖于这样的列表,并一直持续到如今。在20世纪70年代,计算机可擦写词汇的集合迅速加速,如今已接近饱和的信息技术产业所支持的语言的饱和;可是,一如既往地,许多远程语言的服务不足,所以现代OCR系统的扩展,设计成经过提供词典来廉价地从新定向到新的语言,可能会遇到重大障碍。

自动生成天然语言文本的最先步骤之一是提供一种检查单词合法性的方法。最简单的手段固然是或多或少详尽的列表,或者扁平的词典。在OCR系统中,最先的词典上下文开发依赖于这样的列表,并一直持续到如今。在20世纪70年代,计算机可擦写词汇的集合迅速加速,如今已接近饱和的信息技术产业所支持的语言的饱和;可是,一如既往地,许多远程语言的服务不足,所以现代OCR系统的扩展,设计成经过提供词典来廉价地从新定向到新的语言,可能会遇到重大障碍。

然而,许多语言都有很强的屈折变化,所以出现了大量的词汇变体:它们共同的特征有时被称为词干,而这些变体一般由后缀、前缀和更复杂的重写提供。拉丁语、西班牙语和俄语是极端状况。对于这些语言中的大多数,能够在计算语言学算法中捕获全部或大部分屈折形态学规则,这提供了几个好处:

1。更小的词典,由于许多变体都变成了相同的规则。

2。容易输入新词,由于只需添加新词的词干,它的全部屈折都会被覆盖。

3。对新词的识别,使之前从未见过的词能被正确识别(经过派生词法)。

4。更快的查找是一种可能性,尽管计算开销,在一个等价的词汇是难以管理的巨大的状况下。

全部这些好处都有可能被OCR系统所利用

里奇等人。[7] 本文对英语词汇的这种形态结构进行了几乎详尽的分析,这就要求有一个“两级”的规则语法改写规则体系。他们提到,这种方法适用于包括芬兰语、法语、德语、日语、罗马尼亚语、古教会斯拉夫语和瑞典语在内的语言。不幸的是,像希伯来语和阿拉伯语这样的闪族语言拥有“非链接”的形态,这须要更先进的模式。OCR系统的一个含义是,即便在今天,对于服务不足的语言来讲,像“词典检查”这样基本的语言上下文也多是不可行的,要取得进展可能须要专业的语言努力,甚至语言学研究。

从文字到页面,从页面到结构化文档,再到非文本文档

一件事是识别字符、单词或句子;另外一件事是获取文档中的全部信息,如要由邮政部门处理的信件、银行支票、填妥的表格或商业信函。除了字符和单词识别以外,这还包括许多任务,特别是与文档页面的空间分析有关的任务,这其实是一个场景分析问题,以及布局结构与该布局所传达的语义之间的映射。

该领域的早期工做涉及最多见的布局。在20世纪80年代,经过研究小组设计的各类方法,提取出了能够在书籍、报纸、期刊等中找到的矩形布局,如IBM设计的游程平滑算法[8],并用于报纸档案分析系统[9],或者X-Y树将一篇期刊文章分解成同质部分[10],如今仍然被普遍使用,如第5章(文档分析中的页面分割技术)所述。

在布局和/或句法约束很强且众所周知,而且对大量文档的可靠性要求很高的特定类文档也很早就受到了特别关注。所以,系统设计用于邮政自动化[11]或银行支票识别(见第21章(邮政应用程序中的文件分析和支票处理),表格和表格(见第19章(表格和表格的识别))或商业信函。

也有必要超越文本,由于最通常意义上的文档是人类相互交流的形式化方式,使用一种一般能理解的语言,也能够包括图形部分、图像等。这致使了对地图[12,13]、电气图[14]或工程的分析系统的研究图纸[15]。若是这些早期的系统常常是有限的,为一组狭窄的文档进行微调,而且难以维护和扩展,那么它们仍然有助于开发仍在使用的图形识别的基本方法,如第章所述。15(图形识别技术)、16(符号识别概述)和17(图形文档的分析和解释)。

文档图像识别的顽固障碍

1982年,Schantz说“正确的字符识别率与源数据的质量成正比”[1]。1999年,Rice、Nagy和Nartker[16]发表了一篇对频繁出现的OCR错误进行了大量说明的分类,并之前所未有的洞察力讨论了这些错误的根源。质量的一个方面是,因为打印和图像捕获,图像质量降低[17]。

在文件图像分析和识别发展道路上仍然存在的许多障碍中,让咱们提到在咱们看来最难处理的障碍,所以在从此几年中必须继续予以注意

(a) 文档图像并不是老是以最佳和可控的方式捕获,并且其质量每每过低。在某些状况下,例如管理大量的遗产文件,能够对扫描过程的分辨率做出决定,文件自己有时也会降级。以后的处理必须使用图像自己,即便很明显质量远远不能适应分析过程。图像质量可能致使特定问题的其余状况包括视频中的文本和由照相机或电话捕获的文档(见第25章(图像和视频中的文本定位和识别))。

(b) 许多识别过程依赖于须要训练的分类方法。但并不老是可以处理足够大的训练样本集,覆盖分析问题的所有多样性。对于非文本文档尤为如此。与此相关的是,为了评估文档分析系统的性能,一般很难得到足够的地面数据。见章节。29(用于文档分析和识别的数据集和注释)和30(用于文档分析系统评估的工具和度量)用于进一步讨论这些问题。

(c) 咱们已经看到,语言工具是设计高效文档分析系统的重要资产。但在许多语言中,这种工具缺少或没有获得充分开发。

(d) 没有一个文档分析系统能够彻底自动化,这样它就能够做为扫描仪输出的后处理步骤。可是很难构建有效的用户界面,很难将文档图像分析有效地集成到一个更大的工做流程中,甚至更难让用户接受文档图像处理和识别的易出错特性。

(e)彷佛有无限的方式,人们建立文档,复杂的布局或不一致或不存在的排版和语义规则。不可能为全部这些变化训练一个系统。这使得研究人员和公司将注意力集中在小的问题子集上,他们设计的解决方案一般不适用于稍有不一样的问题或文档类别。

(f) 现在,许多公司都面临着这样一个问题:他们的客户或供应商经过多种渠道发送文件,以便传达具备法律或经济意义的信息。这包括经过打印邮件、传真、以电子邮件形式发送的扫描文档图像,甚至PDF或TIFF格式的电子文档(辅以元数据)填写的表单。尽管这些通道中的大多数都提供了必定数量的元数据(传真提供了传真号码,电子邮件的标题中有信息,电子文档有全套的描述符),但它们仍然须要解决整个文档分析问题,正如这本书大量展现的那样。此外,由文档传送的消息是工做流的一个组成部分,即它们能够请求信息或回答这样的请求。帮助这些多通道信息直接提供给工做流是一个挑战,而解决这一挑战的好办法将具备很高的经济价值。

结论

Sellen和Harper[18]有力地指出,在可预见的将来,即便纯数字媒体继续呈指数级增加,纸张做为传播媒介的做用也不太可能在规模上降低。Lesk对数字图书馆的预言性研究[19]指出,即便许多现代数据不可避免地将是“天生的数字”,所以永远没必要从文件的图像转换而来,随着数字图书馆规模的不断扩大,印刷纸的总量也将随之增加。在Nunberg对书(20)的将来展望中,数字和基于文档的信息版本将共存,并借助于文档图像分析技术,相互丰富地相互参照。

相关文章
相关标签/搜索