OCR1：开源库

时间 2019-11-06

标签 ocr1 ocr 开源繁體版

原文原文链接

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，经过检测暗、亮的模式肯定其形状，而后用字符识别方法将形状翻译成计算机文字的过程。优秀的开源OCR软件包括：html

Tesseract：本来由惠普开发的图像识别类库tesseract-ocr已经更新到2.04，就是最近Google支持的那个OCR。原先是惠普写的，如今Open source了。
OCRopus：Ocropus的（TM）是一个先进的文件分析和OCR系统，采用可插入的布局分析，可插入的字符识别，天然语言统计建模和多语言支持功能。
Cuneiform：Cuneiform 是一个 OCR 文字识别系统的商标，最开始是由Cognitive 技术所开发的运行在 Windows 下的软件。而这个项目是该软件在 Linux 系统下的移植版本。
GOCR：GOCR 是一个开源的OCR光学识别程序。
OCRFeeder：OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。
Lios：linux-intelligent-ocr-solution (Lios) 是Linux下一个开源的 OCR 解决方案，可将打印的文档转成可编辑的文本。

云服务商提供服务：python

百度OCR: https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html
Azure图像识别：https://azure.microsoft.com/zh-cn/services/cognitive-services/computer-vision/
阿里云OCR: https://www.aliyun.com/product/cdi/
腾讯OCR：https://cloud.tencent.com/product/ocr

OpenCV VS tesseract：linux

opencv：专一机器视觉
tesseract：专一字符识别

因为tesserocr在windows环境下会出现各类不兼容问题，而且与pycharm虚拟环境不兼容等问题，因此在windows系统环境下，选择pytesseract模块进行安装 ios

Tesseractgit

Tesserocr 是Python的一个OCR库，但实际上是对tesseract作的一层Python API的封装，因此他的核心是tesseract。所以，在安装tesserocr以前，咱们须要先安装tesseract。实际使用tesseract ocr也有两种方式：1- 动态库方式 libtesseract 2 - 执行程序方式 tesseract.exegithub

安装过程：segmentfault

在Windows下,首选须要下载tesseract，它为tesserocr提供支持，在“https://digi.bib.uni-mannheim.de/tesseract/” ，而后选择3.05.02版本进行下载。其中文件名中带有 dev 的为开发版本，不带 dev 的为稳定版本，能够选择下载不带 dev 的版本，例如能够选择下载tesseract-ocr-setup-3.05.02-20180621.exe
若是不是作英文的图文识别，还须要下载其余语言的识别包 https://github.com/tesseract-ocr/tessdata 下载

安装Tesseractwindows

下载Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安装就行。
既然是要训练中文，记得勾选 additional language data，以下图：
找到中文简体和中文繁体，按需勾选，而后点下一步。能够先不勾选，由于这样直接下载语言的包实在太慢。能够从网页上直接下载语言包,而后等程序安装好后，放入安装目录下tessdata目录下面，以下图：ide

配置：布局

在环境变量的系统变量和我的用户的PATH，把tesseract-ocr的安装路径（如 C:\Program Files (x86)\Tesseract-OCR;）添加进去
在windows系统你还须要将testdata目录也加入环境变量，TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata

验证安装：

打开命令终端，输入：tesseract -v，能够看到版本信息

落地验证：

直接下载：https://raw.githubusercontent.com/Python3WebSpider/Testtess/master/image.png 而后，将图片下载下来并保存为image.png，而后使用tesseract命令进行测试
命令：tesseract image.png 1 （image.png 表明待识别的源文件，1表明输出文件名，默认输出格式是txt文件格式！）

python用tesseract-ocr作图像识别

须要导入两个库，这是别人写好的封装好的库文件。

须要用到两个库：pytesseract和PIL
还须要安装识别引擎tesseract-ocr

Python-tesseract：是Tesseract OCR引擎的Python封装类。可以读取任何常规的图片文件(JPG, GIF ,PNG , TIFF等)并解码成可读的语言。在OCR处理期间不会建立任何临文件

PIL （Python Imaging Library）：是 Python 中最经常使用的图像处理库。

python对图像的处理比较常见的是用 pytesseract 识别验证码，要安装pytesseract库，必须先安装其依赖的 PIL 及 tesseract-ocr，其中PIL为图像处理库，然后面的tesseract-ocr则为google的ocr识别引擎。

命令：pip install pillow 目前PIL的官方最新版本为1.1.7，支持的版本为python 2.5, 2.6, 2.7，并不支持python3，经查询python3.X用pillow代替，进入DOS命令行窗口，敲入如下代码
命令：pip install pytesseract

示例代码：

import pytesseract from PIL import Image as img text = pytesseract.image_to_string(img.open('image.png')) print(text)

示例结果：

带中文图片示例（示例图片是从百度图片上下载的）：

中文效果并不理想，下一节介绍训练过程

相关连接：

tesserocr GitHub: https://github.com/sirfz/tesserocr
tesserocr PyPI: https://pypi.python.org/pypi/tesserocr
tesseract 下载地址： https://digi.bib.uni-mannheim.de/tesseract/
tesseract GitHub : https://github.com/tesseract-ocr/tesseract
tesseract 语言包： https://github.com/tesseract-ocr/tessdata
tesseract 文档： https://github.com/tesseract-ocr/tesseract/wiki/Documentation

参考资料：