tesseract-ocr是一 个OCR引擎,在1985年到1995年由HP实验室开发,后来由google开发而且开源,支持多平台,支持多达40种语言,其中包括中文,支持训练,tesseract-ocr是一个命令行程序,可是也提供多种语言的包装器,如.Net 、Python、Ruby、C、Java,方便集成到程序中使用。测试
命令行调用很简单:字体
tesseract.exe <image> <outputName> [-l lang] [configs]google
<image>:要识别的图片路径spa
<outputName>:命令行模式下,tesseract会把识别出来的文字结果保存在一个文本文件中,outputName是该文件的名字,若是值为“lixin”,那么结果会保存在程序根目录下的lixin.txt文件中。命令行
[-l lang]:默认状况下自带了英文的字典,若是想识别中文或者其余语言,须要在下载相应的语言包,并存放在程序“/tessdata”目录下,例如我下载了一个简体中文包,文件名为“chi_sim.traineddata”,解压到“tessdata”目录下,而后该值为:“-l chi_sim”。code
[configs]:配置项。图片
调用的例子: tesseract.exe d:\test.jpg resultFile –l chi_sim开发
通过测试,英文的识别率仍是比较高的,但在字体比较小的状况下,识别率不好,我在记事本上输入本身的手机号码,10px字体,而后截图测试,发现识别错误,接着我把原图进行放大到200%,再进行测试,则识别正确;测试中文时,识别率没有英文高,并且一样存在字体不够大时识别错误率高,经过放大图片或者字体均能提升识别率,常规的验证码识别没问题,可是连体字符则没法识别。get