NET 2.0 OCR文字识别技术(Tesseract 引擎)[转]

一.OCR简介  参见http://baike.baidu.com/view/17761.htm?fr=ala0_1  你们参照,我第一次也是这么了解的,呵呵。高手见笑ide

   如今市面上好多OCR 引擎,不过大可能是收费的,价格不菲呀。。不适合咱们学习研究。学习

 而今天咱们谈到的Tesseract 是开源的产品,比较适合你们的口味吧。而且Tesseract 也是目前识别率较高的OCR,并不比其余引擎测试

 差劲。网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是Google在维护,你们都知道Googlegoogle

   在搞电子图书馆,天天都有不一样类目的书被扫描成电子版,而下一步工做是什么。。。你们能够联想。.net

 

 

Tessnet2 是用vc ++ 开发的,最中是生成Tessnet2.dll ,咱们能够经过.net 来调用内部具体类库实现识别。code

Tessnet2的使用:htm

1.将Tessnet2.dll 添加到vs bin目录,和添加.net程序集同样。http://files.cnblogs.com/zhuxiangyu/tessnet2_32.rar 点击连接下载Tessnet2.dllblog

2.用Tessnet2进行识别开发

 

Bitmap image = newBitmap("eurotext.tif");//识别图像
tessnet2.Tesseractocr = new tessnet2.Tesseract();//声明一个OCR类
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); //设置识别变量,当前只能识别数字。
ocr.Init(@"c:\temp", "fra", false); //应用当前语言包。注,Tessnet2是支持多国语的。语言包下载连接:http://code.google.com/p/tesseract-ocr/downloads/list
List<tessnet2.Word> result = ocr.DoOCR(image, Rectangle.Empty);//执行识别操做
foreach (tessnet2.Word word in result) //遍历识别结果。
 Console.WriteLine("{0} : {1}", word.Confidence, word.Text);get

 看看 使用很简单吧。给你们个实例http://files.cnblogs.com/zhuxiangyu/Tessnet2example.rar用来测试。

相关文章
相关标签/搜索