OCR学习之一:OCR简介

1.什么是OCR?html

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,经过检测暗、亮的模式肯定其形状,而后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,而后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提升识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也所以而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。工具

 

2.OCR典型应用有哪些?性能

全文识别:建立可检索文档 字体

当文档以图像,传真或者扫描文档形式存在时,是不容易进行搜索的。OCR可将文本图像转换成实际可搜索的文本。Google Desktop 和Windows Desktop Search可为这些带有OCR识别的PDF文件和XPS文件编索引,使你经过常规的文本搜索找到所需文件。 ui

区域识别:表格填报 google

在平常工做和生活中,保单,纳税申报,发票和支票等都会涉及到表单。如何使表单处理轻松而快速呢?绝大多数表单处理解决方案都是经过OCR来收集打印数据,ICR 来收集手写数据,OMR来检测所填数据。结构化的表单处理一般采用分区OCR和ICR。 .net

 

3.OCR识别率取决于哪些因素?翻译

1.扫描分辨率:不求最“高”,只求最“佳”。根据经验,五号印刷体采用250~300dpi比较合适;字号比较大(四号以上),用150~200dpi就足够了;code

2.对比度:为了达到最佳的识别效果,对输入稿件在扫描时的要求是清晰,使扫描文件黑白分明,有利于软件的识别;htm

3.偏斜程度:如今的OCR大都采用字模识别的方式,所以图像若是有必定程度的倾斜,就会严重影响识别效果,一方面须要尽可能摆正扫描文件,另外一方面还须要使用软件进行偏斜校订;

4.图片模式:通常对彩色模式识别不好,黑白模式(Line/art)的图片识别较好;

5.字体:印刷体识别率高,手写体识别率很低,须要人工校订;

 

4.OCR开源项目

1.OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html

2.Clara OCR, http://directory.fsf.org/claraocr.html

3.Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html

4.GOCR, http://sourceforge.net/projects/jocr

5.OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html

6.Tesseract, http://code.google.com/p/tesseract-ocr/

 

5.一些OCR工具

1.gscan2pdf:

相关文章
相关标签/搜索