Python tesserocr模块使用示例

时间 2020-01-02

原文原文链接

操做系统：Win10 1709 X64python

python版本：3.6.5windows

依赖模块：PIL、tesserocr。app

　　须要说明的是，在windows系统上PowerShell经过PIP3 install tesserocr安装验证码识别模块时，须要先安装Tesseract （一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，咱们能够不断的训练的库，使图像转换文本的能力不断加强。）可执行文件。工具

　　以中国知网的注册页面为例，咱们常被要求输入这类简单的字母组成，背景含不少杂线的验证码，以下图所示：网站

咱们对验证码另存为到本地代码所在目录，取名：test.png.spa

下图是直接用对应模块识别的代码示例：操作系统

import tesserocr
from PIL import Image
image=Image.open('test.png')

image.show()  #能够打印出图片，供预览
print(tesserocr.image_to_text(image))

　　原始图片尺寸较小，极少状况下若是没法正常识别，能够借助图片处理工具PIL模块进行图片等比例放大后保存。此例中直接运行上述代码，结果为“VHIHI”，即便是肉眼可见较为清晰的验证码，若是图片未经处理直接交由tesserocr解析，也可能识别率很低。code

　　一般状况下，咱们还须要作些额外的图片处理，如转灰度图，二值化等。blog

利用Image对应的convert()方法传参L，便可将图片转为灰度图。图片

image=image.convert('L')

image.show()

传入1便可完成二值化，以下：

image=image.convert('1')

image.show()

固然咱们更多时候须要根据图片的实际状况指定二值化的阈值，好比咱们将阈值设定为80，先转灰度图，再二值化，代码以下：

import tesserocr
from PIL import Image
image=Image.open('test.png')
image=image.convert("L")
threshold=80
table=[]
for i in range(256):
    if i <threshold:
        table.append(0)
    else:
        table.append(1)
image=image.point(table,'1')
image.show()
print(tesserocr.image_to_text(image))

观察处处理后图片如右：

　　尽管图片已经转为灰度图，且过滤了大部分杂线，可是图片关键像素丢失严重，识别结果天然也不尽如人意，结果：“VH.”。

此时咱们根据图片的实际状况，人为调整程序中预设的阈值到130，再观察：,此次的图片转换效果显著，咱们再次查看识别结果，“VHRU”，与肉眼观察到的别无二致，合乎要求。

可见验证码的识别除了用好识别模块，还须要在必要时引入PIL（图片处理模块）进行图片预处理，预处理过程当中的阈值等设定也存有技巧，不一样的参数设定，会彻底影响最终的识别率。

　　现实中不少网站的验证码要远比例子中的来得复杂，尤为是12306购票网站的验证码，使行为验证码开始高速发展，肉眼分辨起来都异常困难，这就要求咱们对验证码的识别技术要不断提高，才能突破网站逐步升级的反爬虫机制。