最近在作身份证号码识别,在网上搜索的一番后发现目前开源的OCR中tesseract-ocr算是比较强大的了,它由HP于1985年到1995年间开发,后来由google直接负责,通过谷歌进一步开发后,目前的tesseract-ocr有了显著的改进。java
tesseract-ocr和Leptonica图像库一块儿工做,它能够读取多种图像格式,并将其转换成超过60种语言的文本。能够工做在Linux,Windows,Mac OSX等系统上,而且能够在android和iphone平台上编译。android
目前android版本在这个地址:https://code.google.com/p/tesseract-android-tools/, 这个版本须要本身下载不少关联的库文件,我在编译的时候出了不少问题,后来没办法又在网上找到了这个项目:https://github.com/rmtheis/tess-two,说是tesseract-ocr-tool的一个分支,这个版本的好处是不少相关的库都已经为咱们配置好了,咱们只要git clone下来编译下就好了,github上相关介绍说的很详细,编译的过程这里就不作介绍了,我在编译的时候出现了permission权限的问题,文件的权限用chmod 777 ./ 这个命令修改下就Ok了。最后编译好的在libs下的so文件就是咱们开发所须要的库文件。git
android中tesseract-ocr的使用在tess-two这个项目中有例子程序,不过写的都比较简单,这里有个开源的识别项目,作的很好:https://github.com/rmtheis/android-ocr, 我借鉴的就是这个项目来开发的,可是用事后发现,对于身份证识别的效果并很差,识别率不是很高,并且常常识别不出来。OCR用到的识别库:https://code.google.com/p/tesseract-ocr/downloads/list,其实咱们能够根据本身的需求来训练一套本身的识别库的,比方说咱们要识别验证码,识别身份证号码等,咱们就能够用下面的方法来训练一套识别库。github
网上关于OCR训练的方法不少,http://my.oschina.net/lixinspace/blog/60124, http://blog.wudilabs.org/entry/f25efc5f/这两篇文章都是比较好的教程,我也是参照这两篇文章来训练的,下面结合个人操做经验来讲下训练的过程。windows
首先咱们须要下面几个工具:iphone
tesseract-ocr-3.01, 最新版的3.02我在我机器上用了有点问题编辑器
jTessBoxEditor, 该工具是用java写的box编辑器工具
一、先新建一个trainocr文件夹,将上面两个文件拷贝进来,而后解压这两个文件,咱们进入Tesseract-ocr文件夹下新建一个temp文件夹测试
二、接下来咱们准备好咱们须要训练的素材以下图字体
要想提升识别率,咱们须要提供多张像上面这样的图片,我训练身份证号码识别库是用了50多张图片,等训练完了我眼睛也花了,图片格式须要为tiff格式的,能够经过windows自带的画图工具来另存为tiff格式,准备好多张图tiff图片后,打开jTessBoxEditor.jar,以下图
在此以前咱们须要在第1步创建的temp文件夹下新建一个custom.tif的文件,接下来咱们选择tool–>Merge TIFF 而后选择准备好的多张tiff图片,注意这里是所有选中,而后点击打开,而后选中咱们刚刚创建的custom.tif文件,点击保存,这样咱们就将多张tiff图片merge到了一个文件里面了。
三、接下来咱们开始生成box文件了,cmd命令行进入temp文件夹下,而后输入以下命令
D:\Trainocr\Tesseract-ocr\temp>..\tesseract.exe custom.tif custom batch.nochop makebox
输入完后会在temp文件夹下多了个custom.box文件,该文件记录了识别出来的每一个字和它对应的位置坐标。
四、接下来就开始矫正了,一样使用jTessBoxEditor工具,咱们切换到Box Editor,而后open打开custom.tif,如图
经过右上角的X,Y,W,H对每一个须要改正的字符进行调整,注意调整好后别忘记保存。
五、接下来是计算字符集,输入以下命令
D:\Trainocr\Tesseract-ocr\temp>..\unicharset_extractor.exe custom.box
六、接下来咱们须要在temp文件夹下建一个font_properties文件,3.01版本的OCR须要这个文件,该文件的目的是提供输出时识别出来的字体样式信息,文件的格式为
<fontname> <italic> <bold> <fixed> <serif> <fraktur>
timesitalic 1 0 0 1 0
咱们能够根据实际状况新建font_properties,我写的是
custom 0 0 0 0 0
意思是普通字体,没有任何格式。
而后执行如下命令
D:\Trainocr\Tesseract-ocr\temp>..\mftraining.exe -F font_properties -U unicharset custom.tr
七、Clustering,输入命令
D:\Trainocr\Tesseract-ocr\temp>..\cntraining.exe custom.tr
八、此时在temp文件夹下已经有不少文件了,须要把inttemp,Microfeat,normproto,pffmtable,unicharset这几个文件加上前缀custom. (注意有个点号),而后输入如下命令
D:\Trainocr\Tesseract-ocr\temp>..\combine_tessdata.exe custom.
出来的结果中咱们须要肯定type 1,type3, type4, type5对应的后面数据不能为-1,这样咱们就能够用这个新字典来识别了,将生成的custom.traineddata文件拷贝到tessdata文件夹下,而后
tesseract test.jpg result | custom
就能够经过新的字典来识别,测试结果代表,识别率确实提升了。现实应用中咱们须要使用多张图片来经过上面的步骤来生成咱们须要的识别库,这样识别率才能提升。