Tesseract——OCR图像识别 入门篇
小程序
最近给了我一个任务,让我研究图像识别,从咱们项目的screenshot中识别文字信息,so我开始了学习,与你们分享下。学习
我看到目前OCR技术有不少,最主要的是Asprise OCR,Tesseract OCR和Java OCR。测试
Asprise OCR速度很快,Java实现很简单,可是它是商业的,要收费的,免费版每次都要弹出对话框,是个很麻烦的事情。ui
Tesseract OCR是C++的,要使用cmd命令的,速度也很快,质量也很好。固然Java也是可使用的。google
Java OCR是纯Java的,效率也不错。.net
今天先记录下Tesseract吧,后续再补充code
1. 首先从官网上下载压缩包,最新版本是Tesseract 3.03,以前的版本能够从这里下载.blog
2. 解压下载好的压缩包到本地目录。图片
3. 打开cmd窗口,进入到tesseract目录下,而后就能够开始咱们的测试之旅啦get
1)选择好你所要识别的图片,并肯定你所要输出的文件,而后输入下列命令:
tesseract letter.png 1
"letter.png": 须要识别的图片
"1": 输出的文件 1.txt
2) 咱们已经把图片中的信息解析出来啦。
来自: http://blog.csdn.net/PanRuiFang/article/details/27191739
上面说道tesseract 是支持中文的,因此么,接下来看看如何使用tesseract 实现咱们中文的识别,下面继续介绍其余参数
参数3:-l
参数4: 使用的语言库
参数3 -l应该是知道参数4所使用的语言库,默认英文,也就是为何上面识别英文的例子,并无输入参数3和参数4,也实现了识别。
下面继续咱们的实验:
咱们准备了一张图片,而后使用tesseract zhongwen.jpg 7 -l chi_sim 指明了中文语言,而后效果图上,仍是很不错的,毕竟咱们的中文是如此的博大精深,而且tesseract能够通过训练,而后识字的能力就会大幅度提高。
好了,因为一行代码没写,就不上传代码了,你们本身去官网下载。接下来我会使用Java带你们实现这样的小程序。
来自: http://blog.csdn.net/lmj623565791/article/details/23955883