OCR库Tesseract初探

时间 2019-11-05

标签 ocr tesseract 初探繁體版

原文原文链接

1.Tesseract 安装及使用

一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，咱们能够不断的训练的库，使图像转换文本的能力不断加强；若是团队深度须要，还能够以它为模板，开发出符合自身需求的OCR引擎。php

源码地址为：https://github.com/tesseract-ocr/tesseract；java

tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/python

接下来，咱们将在Windows环境下安装Tesseract并实现简单的转换和训练：git

进入下载页面，能够看到有各类.exe文件的下载列表，这里能够选择下载3.0版本。github

其中文件名中带有dev的为开发版本，不带dev的为稳定版本，能够选择下载不带dev的版本，例如能够选择下载tesseract-ocr-setup-3.05.02.exe。app

下载完成后双击，此时会出现以下图所示的页面。less

此时能够勾选Additional language data(download)选项来安装OCR识别支持的语言包，这样OCR即可以识别多国语言，默认只有英语。而后一路点击Next按钮便可。工具

配置环境变量

为了在全局使用方便，好比安装路径为C:\Program Files (x86)\Tesseract-OCR，将该路径添加到环境变量的Path中。学习

还有一个环境变量要添加：TESSDATA_PREFIX 指向C:\Program Files (x86)\Tesseract-OCR\tessdata 这个是用于语言包的。测试

测试是否安装成功：在cmd中输入tesseract ，将出现如下界面表明成功：

2.Tesseract的使用

方式一：直接在命令行调用：

tesseract d:\6.png d:\result

第一个参数为图片路径，第二个参数为输出结果路径。6.png的图片以下：

识别结果result.txt的内容为：

有2个数字误识别。

而使用比较标准的文字，如：

是能够彻底识别的。你们能够本身试试。

方式二：在Python中调用

要在python中使用，须要安装：

Python ：官网安装地址：https://www.python.org/downloads/

PIL ：用于python图像格式处理，安装完python以后执行一下命令便可安装：pip install Pillow

Pytesser3： python开源项目，封装了tesseract库，也是在python安装完后使用pip命令安装：pip install pytesser3

而后新建一个记事本文件更名为orc.py,内容以下：

from pytesser3 import image_to_string
from PIL import Image
text = image_to_string(Image.open(r'D:\6.png'))
print(text)

用python执行一下：（我用PyCharm执行的）

3.Tesseract训练：

大致流程为：安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中

安装jTessBoxEditor

下载jTessBoxEditor，地址https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/；解压后获得jTessBoxEditor，因为这是由Java开发的，因此咱们应该确保在运行jTessBoxEditor前先安装JRE（Java Runtime Environment，Java运行环境）。

获取样本文件

咱们能够用画图工具绘制样本文件，数量越多越好，我本身画了5张图，如图：

【注意】：样本图像文件格式必须为tif\tiff格式，不然在Merge样本文件的过程当中会出现 Couldn’t Seek 的错误。

Merge样本文件

打开jTessBoxEditor，Tools->Merge TIFF，将样本文件所有选上，并将合并文件保存为num.font.exp0.tif

生成BOX文件

打开命令行并切换至num.font.exp0.tif所在目录，输入，生成文件名为num.font.exp0.box

tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox

【语法】：tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

lang为语言名称，fontname为字体名称，num为序号；在tesseract中，必定要注意格式。

定义字符配置文件

在目标文件夹内生成一个名为font_properties的文本文件，内容为

font 0 0 0 0 0

【语法】：<fontname> <italic> <bold> <fixed> <serif> <fraktur>

fontname为字体名称，italic为斜体，bold为黑体字，fixed为默认字体，serif为衬线字体，fraktur德文黑字体，1和0表明有和无，精细区分时可以使用。

字符矫正

打开jTessBoxEditor，BOX Editor -> Open，打开num.font.exp0.tif；矫正<Char>上的字符，记得<Page>有好多页噢！

修改后记得保存。

执行批处理文件

在目标目录下生成一个批处理文件

rem 执行改批处理前先要目录下建立font_properties文件 

echo Run Tesseract for Training.. 
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train 
 
echo Compute the Character Set.. 
unicharset_extractor.exe num.font.exp0.box 
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 


echo Clustering.. 
cntraining.exe num.font.exp0.tr 

echo Rename Files.. 
rename normproto num.normproto 
rename inttemp num.inttemp 
rename pffmtable num.pffmtable 
rename shapetable num.shapetable  

echo Create Tessdata.. 
combine_tessdata.exe num. 

echo. & pause

保存后执行便可，执行结果如图：

最终文件夹内会有如下文件，如图：

将生成的traineddata放入tessdata中

最后将num.trainddata复制到Tesseract-OCR中tessdata文件夹便可。

4.最后的测试

按照以前步骤，使用命令行输入

tesseract test.png output_2 -l num

咱们能够看到新生成的文件output_2的内容为762408，内容彻底正确。细心的人会发现，最后一句指令，咱们使用了指令[-l num]而不是[-l eng]。这说明，最后一次转换咱们使用的是新生成的num语言的匹配库而不是默认的eng语言匹配库。

咱们能够看到，通过简单的训练，咱们对于数字数据的转换准确率提升了不少。Tesseract的优势除了能够不断学习之外，还由于是使用C++写的开源程序，可使用C#或者C++调用以及修改，很关键！

Tesseract已经有多个语言的版本：

C#版本：https://github.com/charlesw/tesseract

Java版本：https://github.com/bytedeco/javacpp-presets/tree/master/tesseract

Python版本：https://github.com/sirfz/tesserocr

PHP版本：https://github.com/thiagoalessio/tesseract-ocr-for-php

Tesseract的其余语言版本见：https://github.com/tesseract-ocr/tesseract/wiki/AddOns#tesseract-wrappers