整理了不少OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,因此算是论文导读吧。PS:Smith是一个专一OCR领域30年的男人~~太可怕了!算法
这篇文章的重点是在文本行的查找,特征/分类的方法,以及自适应分类器。此外,文章中介绍了Tesseract发展历史,我就略过了,只谈技术相关。微信
先谈Page Layout Analysis技术,它在OCR领域是个很重要的部分,由于算是文字识别的准备工做。可是,早期的Tesseract没有这项技术,由于HP实验室开发了独立的Page Layout Analysis technology。因此在后期的Tesseract就加入了这项技术。markdown
没记错,就是Tesseract 3.x系列,可是工做没有完成。Smith是基于制表位探测技术作的页面分析。据Smith说下面在作页面中table的检测,我猜快作完了吧….ide
这篇论文里的(旧)Tesseract假设:其数据源是已定义的可选多边形文本域的二进制图片。ui
Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined..net
再谈处理过程。分两步: (1)connected component analysis,而后获得Blobs. (2)从Blobs中获得文本行,而后获得固定比例的(fixed pitch)或者成比例的(proportional)文本。翻译
最后谈识别过程。分两步: (1)经过一个一个地识别单词训练自适应分类器(adaptive classifier),classifer将获得更高的概率能正确识别单词。 (2)识别整个页面。component
归纳来讲,先找文本行(lines),再找基线(baseline),而后将单词(word)切割成字符(character)。blog
细细来说三点:图片
这篇博文在个人草稿箱放了过久,不公布出来就是浪费。可是,目前的内容很是对不起文章标题。按照题目,我还会写:
若是这篇博文反响还不错,我将继续下去。Sorry~Everyone~
我还健康的活着,有问题欢迎交流!这里在大牛面前,班门弄斧,实在很差意思哈~欢迎指正!
有问题能够在个人微信公众号“谷震平的专栏”提出,当天答复。欢迎,扫描下方二维码,回复“Tesseract”,便可获得《An Overview of the Tesseract OCR Engine》(我我的进行了注释、翻译)的阅读连接。