在readfree中有人对书籍批量扫描过程颇有好奇心,恰好在多年前的某集团企业信息化项目中,我曾经做为总包方项目组成员负责其中的档案电子化部分的扫描外包方考察、评价、选择,并制定了相关技术要求、验收质检标准等,算是实际见识过,能够介绍一下其中的一些状况。因为扫描外包(我听到的行业内部术语更常常的是称为“档案电子化”、“档案数字化”)早已经是一个很是成熟的业务,各扫描外包公司的管理和业务流程其实大同小异。算法
1、硬件条件服务器
与我的扫描不一样,我见过的扫描外包商就没有用平板扫描仪的,缘由很简单:平板扫描仪的效率过低,根本知足不了批量扫描业务上的时间要求。由于该次项目须要扫描的档案是容许切边再从新装订的,因此各扫描外包公司拿出来的都是自动进纸的高速扫描仪,不少还支持双面扫描,一本书切好了往进纸口一放,哗哗哗雪片同样从出纸口出完了也就扫完了。听说若是是不容许拆卸的古籍或其余珍贵档案,外包商宁愿采用几十万一台的V字型拍照扫描仪,也没有人用从平板扫描仪改进出来的零边距书籍扫描仪,缘由一样仍是由于效率问题。我见到的古籍拍摄样品是用当时像素最高的全画幅单反尼康D800(3600万像素)拍摄的,估计如今早已升级到D850(4575万像素)了。在试着实际处理了几页D800拍摄的高像素古籍照片后,我还发现CEP的某些算法实现存在严重缺陷,并作了一些改进。人工智能
按照通常理解,作图像处理的电脑硬件条件应该越高越好,但实际上全部扫描外包商对成本控制都及其严格,因此用的机器都很滥,不少时候甲方为了保密还在合同中规定全部电脑、服务器、存储设备由甲方提供,就更是有啥破电脑都只能忍了。因此扫描外包商内部使用的图像处理软件功能都不复杂,算法越简单越好,不少时候是用人脑代替电脑。内存
扫描外包场地通常由甲方就近提供,而且规定所扫描的档案不能带理现场。但也有图省钱的甲方,容许甲方将档案带回本身的地盘进行扫描,扫完了再归还回来。项目管理
2、软件条件开发
我见过的扫描外包商都有本身开发的在线生产管理系统,包括扫描项目管理、著录信息管理、图像处理等功能模块。扫描项目管理对各项目进行控制,在里面能够实时查看项目进度、项目成果、差错统计、人员绩效等,还能够进行成品书籍/档案的查询、浏览等。著录信息管理包括录入管理、一校管理、二校管理等。图像处理模块也都是连网的,处理的图像来自服务器,处理完的结果也直接存放到服务器。工作流
因为全部的我的绩效都是计件的,因此实际操做过程当中大多数人宁愿用键盘也不肯用鼠标,尤为是图像处理模块要求全部的功能都有快捷键,现场一个个运指如飞,看得我眼花缭乱。不过由于没有人用平板扫描仪,扫描现场也不存在光照不均匀的问题,因此啥中缝处理、光照修正什么的都不须要,图像处理的功能要求和时间要求均可以大幅降低。图像处理
正是由于这段经历,我一直相信用来扫描书籍的不该该是平板扫描仪,就算是本身DIY一个用于不能切边的私人扫描场合,也得要是解决了中缝问题的拍照式零边距扫描仪。效率
3、人员组织与管理服务器端
一般针对某项目的扫描外包团队除一个负责人、一个技术支持(一般兼任扫描仪操做员)外,就是数量不等的录入人员、图像处理人员,具体人数要看任务量与甲方的出价,我见过的团队都是10人左右。关键是其中的人员全都是能复用的,好比说切边、装订的时候,谁也别想闲着,你们都得上。人员来源也很单一:你们都在电视、报纸广告上见过各类“包分配”的电脑打字培训学校吧?不少都是从那里面出来的乡下小姑娘,别的人也吃不了那份苦。
在人员绩效考核方面比较简单、直观,全是计件,而后按照差错率扣钱,因此干得都很拼命。但因为市场竞争太激烈,效益都很很差。我曾经陪甲方表明考察过某扫描外包现场,原本这位老兄是准备挑刺而后好好砍价的,但看完了却私下和我说:“算了,咱仍是别砍了,那些小姑娘看上去太可怜了!”
4、工做流程
在合同签定之后,扫描外包项目团队天天的工做流程大体上是这样的:
一、档案清点、签字出库。这个过程甲乙方的人都得上,清点不能出错。
二、档案切边,成为散页。这个过程就是外包项目组全员上阵了,纯粹的力气活。
下面的步骤多线并行,各司其职,最终的结果都汇总到生产管理系统的服务器上。
三、档案批量扫描。因为是用带自动进纸功能的高速扫描仪扫描散页,因此效率至关高,即便是一我的操做也每每是他最早完工。扫描出来的图像按照档案号(包括盒号、卷号、卷内号等)或书籍编号建立文件夹进行存储。
四、档案图像处理。服务器收到扫描结果后自动分配任务,人工进行处理。处理结果由管理岗进行抽查,或者组内成员交叉互查,发现处理失误(没有纠斜、没有处理干净等)就扣处理者的钱。处理或抽查过程当中发现扫描失误(漏扫、纸张折叠等)就扣扫描者的钱,同时进行补扫。
五、著录信息录入。因为人工成本远远低于人工智能的成本,因此在对录入信息的防错方面采用了一个简单的方法:2~3人同时录入相同的信息,而后在服务器端进行对比,一致的录入被视为有效,直接存入成果区,不一致的结果少数服从多数(3人同时录入时),或者提交给一校进行人工校核。一校采用两人同时校核,结果一致时存入成果区,不一致时由二校人工校核。通常二校只有一我的,并且他的校核结果就是最终结果。但我在现场亲眼见过一个极度疲惫的二校把对的改为了错的,因此若是你们在dx上看到有啥错误的著录信息的时候,真的没有必要大惊小怪。
上面各步的成果由生产管理系统自动按照档案号/书号进行关联、组织。天天下班前还须要完成:
六、档案装订。切边后的档案总不能这么散着还回去,因此还要装订成原样再还回去。这个也是全组齐上阵进行操做。若是档案比较多,甚至会设置专门人员,扫完就装订了。
七、档案清点、签字入库。入库的档案必须按照出库单逐一清点,不能出现遗漏。
5、质量要求与验收
扫描质量要求这种事情至关考验甲方的水平,基本上你能提出什么样的要求,扫描外包方就刚恰好能达到什么样的要求,以节约成本。我提的要求洋洋洒洒一大堆,不过主要关键点仍是图像存储格式、扫描DPI、差错率等容易量化的指标。
在结果提交方面,除著录信息(案卷目录、卷内目录等)外,不少技术实力不足或图省事的甲方对于扫描结果会要求扫描外包方直接提供PDF文件,但在我负责的项目中要求的是提供图像文件,由我方开发的软件转换成PDF。主要缘由是考虑到原始文件须要长期存储(使用过程当中用的都是PDF文件),在长期存储过程当中PDF若是出事整本书就没了,散页文件出事则只损失一页而已。顺便在转换成PDF的过程当中还能够进行一系列检查,包括但不限于:
一、扫描外包商提供的图像文件是否能正常读取、正常解码。二、图像格式是否符合要求,图像内存储的扫描DPI是否符合要求。三、是否有缺页(页数来自著录信息)、是否存在案卷清单与案卷文件夹对不上等。……(时间太遥远,有些忘记了)